CN112508044A

CN112508044A - 人工智能ai模型的评估方法、系统及设备

Info

Publication number: CN112508044A
Application number: CN201911425487.7A
Authority: CN
Inventors: 陈轶; 李鹏飞; 李亿; 白小龙
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Cloud Computing Technologies Co Ltd
Priority date: 2019-09-16
Filing date: 2019-12-31
Publication date: 2021-03-16

Abstract

本申请公开了一种人工智能AI模型的评估方法，涉及AI领域，包括：计算设备获取AI模型和评估数据集，评估数据集包括多个携带用于表示评估数据对应的真实结果的标签的评估数据；根据数据特征对评估数据集中的评估数据进行分类以获得评估数据子集，评估数据子集中的所有评估数据的数据特征的值满足条件；确定AI模型对评估数据子集中的评估数据的推理结果，将评估数据子集中的每个评估数据的推理结果和标签进行比较，根据比较结果计算AI模型对评估数据子集的推理的准确度，以获得AI模型对数据特征的值满足该条件的数据的评估结果。上述方法可以得到AI模型对特定分类的数据的评估结果，可以更好地指导AI模型的优化方向。

Description

人工智能AI模型的评估方法、系统及设备

技术领域

本申请涉及人工智能(artificial intelligence，AI)领域，尤其涉及一种AI模型的评估方法、系统及设备。

背景技术

随着深度学习技术的不断发展，应用于不同场景的AI模型被不断训练出来，例如：被训练的用于图像分类的AI模型、被训练的用于物体识别的AI模型等。由于训练出来的AI模型可能存在一些问题，如：已训练的用于图像分类的AI模型对全部的输入图像或者部分的输入图像存在分类准确率较低的问题等。因此，需要对训练出来的AI模型进行评估。

现有技术中无法对AI模型作出具有指导性的评估。

发明内容

本申请公开了一种AI模型的评估方法、系统及设备，用于更有效地评估AI模型。

第一方面公开一种AI模型的评估方法，计算设备获取AI模型和包括多个携带标签的评估数据的评估数据集，根据数据特征对评估数据集中的评估数据进行分类，获得评估数据子集，其中，评估数据子集为评估数据集的子集，评估数据子集中的所有评估数据的数据特征的值满足条件，该计算设备进一步确定AI模型对评估数据子集中的评估数据的推理结果，将评估数据子集中的每个评估数据的推理结果和评估数据子集中的每个评估数据的标签进行比较，根据比较结果计算AI模型对评估数据子集的推理的准确度，以获得AI模型对数据特征的值满足条件的数据的评估结果。

上述方法可以得到AI模型对特定分类的数据的评估结果，该评估结果可以用于更好地指导对AI模型进行进一步的优化。上述每个评估数据的标签用于表示评估数据对应的真实结果。

作为一种可能的实施方式，计算设备可以生成对AI模型的优化建议。优化建议可以包括：用数据特征的值满足该条件的新数据训练AI模型。根据本申请获得的评估结果给出的对AI模型更具体的优化建议，可有效地优化AI模型，提升优化后的AI模型的推理能力，避免了技术人员仅根据经验进行AI模型的优化而带来的优化效果不佳的问题。

作为一种可能的实施方式，计算设备可以生成包括评估结果和/或优化建议的评估报告，并发送该评估报告至用户的设备或系统，以便用户可以根据评估报告了解AI模型对特定分类的数据的评估结果，以及根据评估报告对AI模型进行优化。

作为一种可能的实施方式，计算设备可以获取性能数据，性能数据可以表示在AI模型对评估数据进行推理的过程中，执行推理过程的硬件的性能表现，和/或，可以表示在AI模型对评估数据进行推理的过程中AI模型包括的算子的使用情况，以便用户根据性能数据了解AI模型对硬件的影响以及AI模型中算子的使用情况，以及可以根据性能数据对AI模型进行相应的优化。

作为一种可能的实施方式，性能数据可以包括中央处理器(central processingunit，CPU)的使用率、图形处理器(graphics processing unit，GPU)的使用率、内存使用量、显存使用量、算子的使用时长、算子的使用数量中的一种或多种。

作为一种可能的实施方式，上述数据特征的数量可以为多个，上述条件可以包括多个子条件，多个数据特征和多个子条件的关系为一一对应。计算设备在根据数据特征对评估数据集中的评估数据进行分类，获得评估数据子集时，可以根据上述多个数据特征对评估数据集中的评估数据进行分类，获得评估数据子集。其中，评估数据子集中的所有评估数据的多个数据特征的值中的每个值满足上述条件中对应的子条件。上述方法根据多个数据特征对评估数据集进行分类，可以得到AI模型对特定分类的数据的评估结果，该评估结果可以更好地用于指导AI模型的进一步优化方向。

作为一种可能的实施方式，计算设备可以确定AI模型对评估数据集中的评估数据的推理结果，根据评估数据集中的评估数据的推理结果和评估数据集中的评估数据的标签的比较结果，计算AI模型对所述评估数据集的推理的准确度，以获得所述AI模型对全局数据的评估结果。上述方法可以直观地得到AI模型对全局数据的整体推理能力。

作为一种可能的实施方式，评估数据集中的评估数据可以为图像，也可以为音频。

第二方面公开一种AI模型的评估系统，所述系统包括：

输入输出(input output，I/O)模块，用于获取所述AI模型和评估数据集，所述评估数据集包括多个携带标签的评估数据，每个评估数据的标签用于表示所述评估数据对应的真实结果；

数据分析模块，用于根据数据特征对所述评估数据集中的评估数据进行分类，以获得评估数据子集，所述评估数据子集为所述评估数据集的子集，所述评估数据子集中的所有评估数据的所述数据特征的值满足条件；

推理模块，用于确定所述AI模型对所述评估数据子集中的评估数据的推理结果；

所述数据分析模块，还用于将所述评估数据子集中的每个评估数据的推理结果和所述评估数据子集中的每个评估数据的标签进行比较，根据比较结果计算所述AI模型对所述评估数据子集的推理的准确度，以获得所述AI模型对所述数据特征的值满足所述条件的数据的评估结果。

作为一种可能的实施方式，所述系统还包括：

诊断模块，用于生成对所述AI模型的优化建议，所述优化建议包括：用所述数据特征的值满足所述条件的新数据训练所述AI模型。

作为一种可能的实施方式，所述诊断模块，还用于生成评估报告，所述评估报告包括所述评估结果和/或所述优化建议；

所述I/O模块，还用于发送所述评估报告。

作为一种可能的实施方式，所述系统还包括：

性能监测模块，用于获取性能数据，所述性能数据用于表示在所述AI模型对所述评估数据进行推理的过程中，执行所述推理过程的硬件的性能表现，或者在所述AI模型对所述评估数据进行推理的过程中所述AI模型包括的算子的使用情况。

作为一种可能的实施方式，所述性能数据包括以下数据中的一种或多种：中央处理器CPU的使用率、图形处理器GPU的使用率、内存使用量、显存使用量、算子的使用时长、算子的使用数量。

作为一种可能的实施方式，所述推理模块，还用于确定所述AI模型对所述评估数据集中的评估数据的推理结果；

所述系统还包括：

模型分析模块，用于根据所述评估数据集中的评估数据的推理结果和所述评估数据集中的评估数据的标签的比较结果，计算所述AI模型对所述评估数据集的推理的准确度，以获得所述AI模型对全局数据的评估结果。

作为一种可能的实施方式，所述数据特征的数量为多个，所述条件包括多个子条件，所述多个数据特征和所述多个子条件的关系为一一对应；

所述数据分析模块，具体用于根据所述多个数据特征对所述评估数据集中的评估数据进行分类，以获得评估数据子集，其中，所述评估数据子集中的所有评估数据的所述多个数据特征的值中的每个值满足所述条件中对应的子条件。

作为一种可能的实施方式，所述评估数据集中的评估数据为图像或者音频。

第三方面公开一种计算设备，所述计算设备包括存储器和处理器，所述存储器用于存储一组计算机指令；所述处理器执行所述存储器存储的一组计算机指令，以使得所述计算设备执行第一方面或第一方面的任意一种可能的实施方式公开的方法。

第四方面公开一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序代码，当所述计算机程序代码被计算设备执行时，所述计算设备执行前述第一方面或第一方面的任意一种可能的实施方式中公开的方法。该存储介质包括但不限于易失性存储器，例如随机访问存储器，非易失性存储器，例如快闪存储器、硬盘(hard disk drive，HDD)、固态硬盘(solid state drive，SSD)。

第五方面公开一种计算机程序产品，所述计算机程序产品包括计算机程序代码，在所述计算机程序代码被计算设备执行时，所述计算设备执行前述第一方面或第一方面的任意可能的实施方式中公开的方法。该计算机程序产品可以为一个软件安装包，在需要使用前述第一方面或第一方面的任意可能的实施方式中公开的方法的情况下，可以下载该计算机程序产品并在计算设备上执行该计算机程序产品。

第六方面公开一种AI模型的评估方法，计算设备可以获取AI模型和包括多个携带标签的评估数据的评估数据集，利用AI模型对评估数据集中的评估数据进行推理，获取性能数据，根据性能数据，生成对AI模型的优化建议。上述方法根据本申请的评估方法获取的性能数据给出对AI模型更具体的优化建议，避免了技术人员仅根据经验进行AI模型的优化而带来的优化效果不佳的问题。性能数据用于表示在AI模型对评估数据进行推理的过程中，执行推理过程的硬件的性能表现，或者在AI模型对评估数据进行推理的过程中AI模型包括的算子的使用情况。优化建议可以包括对AI模型的结构进行调整，或者，对AI模型的算子进行优化训练。

作为一种可能的实施方式，计算设备可以生成包括性能数据和/或优化建议的评估报告，发送评估报告，以便用户可以根据评估报告了解AI模型基于数据特征的推理能力，以及根据评估报告对AI模型进行优化。

作为一种可能的实施方式，在AI模型对所述评估数据进行推理的过程中所述AI模型包括的算子的使用情况，包括：AI模型的算子的使用时长、AI模型的算子的使用数量。

作为一种可能的实施方式，在AI模型对评估数据进行推理的过程中，执行推理过程的硬件的性能表现，包括：CPU的使用率、GPU的使用率、内存使用量和显存使用量中的一种或多种。

第七方面公开一种AI模型的评估系统，所述系统包括：

I/O模块，用于获取所述AI模型和评估数据集，所述评估数据集包括多个携带标签的评估数据，每个评估数据的标签用于表示所述评估数据对应的真实结果；

推理模块，用于利用所述AI模型对所述评估数据集中的评估数据进行推理；

性能监测模块，用于获取性能数据，所述性能数据用于表示在所述AI模型对所述评估数据进行推理的过程中，执行所述推理过程的硬件的性能表现，或者在所述AI模型对所述评估数据进行推理的过程中所述AI模型包括的算子的使用情况；

诊断模块，用于根据所述性能数据，生成对所述AI模型的优化建议，所述优化建议包括：对所述AI模型的结构进行调整，或者，针对所述AI模型的算子进行优化训练。

作为一种可能的实施方式，所述诊断模块，还用于生成评估报告，所述评估报告包括所述性能数据和/或所述优化建议；

所述I/O模块，还用于发送所述评估报告。

作为一种可能的实施方式，在所述AI模型对所述评估数据进行推理的过程中所述AI模型包括的算子的使用情况，包括：所述AI模型的算子的使用时长、所述AI模型的算子的使用数量。

作为一种可能的实施方式，所述推理模块，还用于确定AI模型对评估数据集中的评估数据的推理结果；

所述系统还包括：

模型分析模块，用于根据评估数据集中的评估数据的推理结果和评估数据集中的评估数据的标签的比较结果，计算AI模型对所述评估数据集的推理的准确度，以获得所述AI模型对全局数据的评估结果。

作为一种可能的实施方式，所述评估数据集中的评估数据为图像或音频。

第八方面公开一种计算设备，所述计算设备包括存储器和处理器，所述存储器用于存储一组计算机指令；所述处理器执行所述存储器存储的一组计算机指令，以使得所述计算设备执行第六方面或第六方面的任意一种可能的实施方式公开的方法。

第九方面公开一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序代码，当所述计算机程序代码被计算设备执行时，所述计算设备执行前述第六方面或第六方面的任意一种可能的实施方式中公开的方法。该存储介质包括但不限于易失性存储器，例如随机访问存储器，非易失性存储器，例如快闪存储器、硬盘(hard disk drive，HDD)、固态硬盘(solid state drive，SSD)。

第十方面公开一种计算机程序产品，所述计算机程序产品包括计算机程序代码，在所述计算机程序代码被计算设备执行时，所述计算设备执行前述第六方面或第六方面的任意可能的实施方式中公开的方法。该计算机程序产品可以为一个软件安装包，在需要使用前述第六方面或第六方面的任意可能的实施方式中公开的方法的情况下，可以下载该计算机程序产品并在计算设备上执行该计算机程序产品。

附图说明

图1是本申请实施例公开的一种系统架构100的示意图；

图2是本申请实施例公开的另一种系统架构200的示意图；

图3是本申请实施例公开的一种评估系统的部署示意图；

图4是本申请实施例公开的另一种评估系统的部署示意图；

图5是本申请实施例公开的一种评估系统的结构示意图；

图6是本申请实施例公开的一种AI模型的评估方法的流程示意图；

图7是本申请实施例公开的一种任务创建界面示意图；

图8是本申请实施例公开的另一种AI模型的评估方法的流程示意图；

图9是本申请实施例公开的微生物检测的标注框亮度的分布图；

图10是本申请实施例公开的微生物检测的标注框的面积占图像的比重的分布图；

图11是本申请实施例公开的一种微生物细胞对应的模型重新训练前后mAP示意图；

图12是本申请实施例公开的一种用于安全帽检测的AI模型的FI值与置信度阈值的曲线；

图13是本申请实施例公开的一种用于安全帽检测的AI模型的P-R曲线；

图14是本申请实施例公开的另一种评估系统1500的结构示意图；

图15是本申请实施例公开的又一种评估系统1600的结构示意图；

图16为本申请实施例公开的一种计算设备的结构示意图；

图17为本申请实施例公开的另一种计算设备的结构示意图。

具体实施方式

本申请实施例公开了一种人工智能(artificial intelligence，AI)模型的评估方法、系统及设备，用于有效地评估AI模型。以下分别进行详细说明。

目前，AI受到了学术界和工业界的广泛关注，其在不少应用领域都发挥了超乎普通人类的水平。例如：AI技术在机器视觉领域(如人脸识别、图像分类、物体检测等)的应用使得机器视觉的准确率高于人类，AI技术在自然语言处理和推荐系统等领域也有较好的应用。

机器学习是一种实现AI的核心手段，计算机针对要解决的技术问题，根据已有的数据构建一种AI模型，再利用AI模型对未知数据进行推理，获得推理结果。这种方法就好像计算机像人类一样学习了某一能力(如认知能力、辨别能力、分类能力等)，因此，将这种方法称为机器学习。

利用机器学习实现AI的各种应用要用到各种AI模型(如神经网络(neuralnetwork)模型等)。AI模型是一类用机器学习思想解决实际问题的数学算法模型，AI模型中包括大量的参数和计算公式(或计算规则)，AI模型中的参数是可以通过数据集对AI模型进行训练获得的数值，例如：AI模型中的参数是AI模型中计算公式或因子的权重。AI模型可以分成多层或者多个节点，每一层或者每一个节点包括一种类型的计算规则及一个或多个参数(用于表示某种映射、关系或者变换)，AI模型中的每一层或者每个节点采用的计算规则及一个或多个参数称为一个算子(operator)。一个AI模型可以包括大量的算子，例如，在神经网络中，算子可以为一层结构，可以为卷积层、池化层、全连接层等。卷积层用于特征提取。池化层用于下采样。全连接层用于特征提取或分类。AI模型包括深度卷积神经网络、残差网络(residual network，ResNet)、超分辨率测试序列(visual geometry group，VGG)网络、Inception网络、快速(Faser)-基于区域的卷积神经网络(region-basedconvolutional neural networks，R-CNN)、单个深层检测(single shot multiboxdetector，SSD)网络、你只需要看一遍(you only look once，YOLO)网络等。

在将一个AI模型用在一个特定的应用场景以解决一个技术问题之前，先需要对初始AI模型进行训练，之后对训练后的AI模型进行评估，进而根据评估结果决定该AI模型是否需要继续优化，优化后再评估。只有在AI模型评估结果较好的情况下，才能使用AI模型。随着深度学习的不断发展，逐渐形成了AI平台。AI平台是向个人或企业等用户提供AI模型的训练、评估、优化等服务的系统，AI平台可以通过接口接收用户的需求和数据，为用户训练和优化符合用户需求的各种AI模型，也可以为用户评估AI模型的性能，还可以为用户根据评估结果继续优化AI模型。

目前，AI平台在对初始AI模型进行训练，得到AI模型之后，AI平台使用AI模型对评估数据集进行推理得到推理结果，之后可以根据推理结果和评估数据集中的评估数据的标签确定AI模型对评估数据集的推理结果的准确度，准确度用于表示AI模型对评估数据集中的评估数据的推理结果与该评估数据集中的评估数据的真实结果之间的相近程度，准确度可以用很多指标来衡量，例如准确率、召回率等。上述方法中，研发人员只能得到AI模型对整个评估数据集的准确度的值，无法得到更具体的信息，如数据特征对AI模型的推理结果的影响等，以致评估结果较为笼统，不能给AI模型的进一步优化提供更多的信息。

推理是使用AI模型对评估数据集中的评估数据进行预测的过程。例如，在任务类型为人脸识别的情况下，推理可以是使用AI模型识别评估数据集中的图像中的人脸对应的人名。具体地，可以通过推理代码调用AI模型对评估数据集中的评估数据进行推理。推理代码可以包括调用代码，用于调用AI模型对评估数据集中的评估数据进行推理。推理代码还可以包括预处理代码，用于对评估数据集中的评估数据进行预处理，之后使用调用代码调用AI模型对预处理后的评估数据集中的评估数据进行推理。推理代码还可以包括后处理代码，用于对推理结果进行进一步地统计分析等处理。

数据特征是对数据本身特性或特征的抽象，用于表示数据的特征或特性。例如，在评估数据为图像的情况下，数据特征可以为图像的长宽比、图像的色彩度、图像的分辨率、图像的模糊度、图像的亮度、图像的饱和度等。不同的数据在同一数据特征下对应有不同的数据特征值，根据数据特征可以对多个数据进行分类，每个分类下的数据为具有相似的数据特征的数据。例如：不同尺寸图像的长宽比不同，可以分别计算10张图像的长宽比的值，得到一组图像的长宽比的值为[0.4、0.3、0.35、0.9、0.1、1.2、1.4、0.3、0.89、0.7]，可以将上述图像按照图像的长宽比分为三类，一类为图像的长宽比的值为[0-0.5]的图像，共5张；一类为图像的长宽比的值为(0.5-1]的图像，共3张；还有一类为图像的长宽比的值为(1-1.5]的图像，共2张。

本申请实施例公开了一种AI模型的评估方法、系统及设备，该方法可以得到AI模型对特定分类的数据的评估结果，使评估结果可以更有效地用于指导AI模型的进一步优化。

为了更好地理解本申请实施例公开的一种AI模型的评估方法、系统及设备，下面先对本申请实施例使用的系统架构进行描述。请参阅图1，图1是本申请实施例公开的一种系统架构100的示意图。如图1所示，在该系统架构100中，可以包括训练系统11、评估系统12和终端设备13，其中，训练系统11和评估系统12可以通过AI平台为用户提供AI模型的训练和评估服务。

训练系统11，用于接收用户通过终端设备13发送的训练数据集，根据训练数据集对初始AI模型进行训练，以及将训练好的AI模型发送给评估系统12。

可选地，训练系统11，还用于接收用户通过终端设备13在AI平台上输入或选择的任务类型，根据任务类型确定初始AI模型。

可选地，训练系统11，还用于将接收的任务类型发送给评估系统12。

可选地，训练系统11，还用于接收用户通过终端设备13上传的初始AI模型。

评估系统12，用于接收来自训练系统11的AI模型，接收用户通过终端设备13上传的评估数据集，使用AI模型对评估数据集进行推理得到推理结果，根据评估数据集和推理结果生成包括评估结果和/或对AI模型的优化建议的评估报告，发送评估报告至终端设备13。

可选地，评估系统12，还用于接收来自训练系统11的任务类型。

可选地，评估系统12，还用于接收用户通过终端设备13在AI平台上输入或选择的任务类型。

终端设备13，用于根据用户的操作向训练系统11发送和评估系统12发送数据和信息，或者接收训练系统11或评估系统12发送的信息。

请参阅图2，图2是本申请实施例公开的另一种系统架构200的示意图。如图2所示，该系统架构200可以包括终端设备21和评估系统22。

终端设备21，用于根据用户的操作将训练好的AI模型、评估数据集和推理代码发送至评估系统22。

评估系统22，用于接收来自终端设备21的训练好的AI模型、评估数据集和推理代码，通过推理代码调用AI模型对评估数据集中的评估数据进行推理得到推理结果，根据评估数据集和推理结果生成包括评估结果和对AI模型的优化建议的评估报告，以及向终端设备21发送评估报告。

可选地，评估系统22，还用于接收用户通过终端设备21发送的任务类型。

应理解，在一些实施例中，本申请提供的AI模型的评估方法由评估系统执行，例如：评估系统可以是上述评估系统12或者上述评估系统22。

请参阅图3，图3是本申请实施例公开的一种评估系统的部署示意图。如图3所示，评估系统可以部署在云环境。云环境是云计算模式下利用基础资源向用户提供云服务的实体。云环境包括云数据中心和云服务平台，云数据中心包括云服务提供商拥有的大量基础资源(包括计算资源、存储资源和网络资源)，云数据中心包括的计算资源可以是大量的计算设备(例如服务器)。评估系统可以独立地部署在云数据中心中的服务器或虚拟机上，评估系统也可以分布式地部署在云数据中心中的多台服务器上、或者分布式地部署在云数据中心中的多台虚拟机上、再或者分布式地部署在云数据中心中的服务器和虚拟机上。如图3所示，评估系统由云服务提供商在云服务平台抽象成一种评估云服务提供给用户，用户在云服务平台购买该云服务后(可预充值再根据最终资源的使用情况进行结算)，云环境利用部署在云数据中心的评估系统向用户提供评估云服务。应理解，评估系统提供的功能也可以与其他系统提供的功能共同抽象成一项云服务，例如：云服务提供商将评估系统提供的对AI模型评估的功能，以及训练系统提供的对初始AI模型进行训练的功能共同抽象成一种AI平台云服务。

评估系统还可以部署在边缘环境，边缘环境是指距离用户较近的数据中心或者边缘计算设备的集合，边缘环境包括一个或多个边缘计算设备。评估系统可以独立地部署在边缘计算设备上，评估系统也可以分布式地部署在多台边缘服务器上、或者分布式地部署在多台拥有计算力的边缘小站上、再或者分布式地部署在边缘服务器和拥有计算力的边缘小站上。此外，评估系统还可以部署在其它环境，例如终端计算设备集群。评估系统可以是一个软件系统，运行在服务器等计算设备上。评估系统也可以是AI平台的一个后台系统，在AI平台上可以是一项AI模型评估服务，该服务由评估系统后台提供。

请参阅图4，图4是本申请实施例公开的另一种评估系统的部署示意图。如图4所示，本申请提供的评估系统还可以分布式地部署在不同的环境中。本申请提供的评估系统可以在逻辑上分成多个部分，每个部分具有不同的功能。评估系统中的各部分可以分别部署在终端计算设备、边缘环境和云环境中的任意两个或三个环境中。终端计算设备包括：终端服务器、智能手机、笔记本电脑、平板电脑、个人台式电脑、智能摄相机等。边缘环境为包括距离终端计算设备较近的边缘计算设备集合的环境，边缘计算设备包括：边缘服务器、拥有计算力的边缘小站等。部署在不同环境或设备的评估系统的各个部分协同实现AI模型评估功能。应理解，本申请不对评估系统的哪些部分部署具体部署在什么环境进行限制性的划分，实际应用时可根据终端计算设备的计算能力、边缘环境和云环境的资源占有情况或具体应用需求进行适应性的部署。

在一些实施例中，AI平台包括训练系统和评估系统，训练系统和评估系统可以部署在同样的环境，如云环境、边缘环境等。训练系统和评估系统也可以部署在不同的环境，例如，训练系统部署在云环境，评估系统部署在边缘环境。训练系统和评估系统可以是独立部署的，也可以是分布式部署地。

请参阅图5，图5是本申请实施例公开的一种评估系统500的结构示意图。如图5所示，评估系统500可以包括输入输出(input output，I/O)模块501、数据集存储模块502、推理模块503、性能监测模块504、模型分析模块505、数据分析模块506、诊断模块507和结果存储模块508。评估系统500可以包括上述模块中的全部模块或部分模块。下面先对评估系统500中的各个模块的功能进行描述。

I/O模块501，用于接收来自训练系统或终端设备发送的AI模型，接收用户通过终端设备上传的评估数据集和推理代码，发送评估报告至终端设备。

可选地，I/O模块501，还用于接收用户通过终端设备上传的任务类型。

数据集存储模块502，用于存储接收的评估数据集。

推理模块503，用于使用AI模型对数据集存储模块502存储的评估数据集或接收的评估数据集进行推理。

性能监测模块504，用于在推理模块503进行推理的过程中监测AI模型推理过程中对硬件资源的使用信息以及AI模型包括的算子的使用时长、算子的使用数量。算子的使用数量为算子在推理模块503进行推理的过程使用的次数。算子的使用时长为每个算子在推理模块503进行推理的过程使用的总时长和/或平均时长。

模型分析模块505，用于根据推理模块503的推理结果和评估数据集中评估数据的标签计算AI模型对评估数据集中的评估数据的推理结果的准确度。

数据分析模块506，用于计算评估数据集中的评估数据在一种或多种数据特征下的数据特征的值，根据数据特征的值对评估数据集中的评估数据进行分类，获得至少一个评估数据子集，根据推理模块503的推理结果和每个评估数据子集中评估数据的标签计算AI模型对每个评估数据子集中的评估数据的推理结果的准确度。

诊断模块507，用于根据性能监测模块504的监测结果、模型分析模块505的分析结果和数据分析模块506的分析结果中的任意一个或多个生成评估报告。

结果存储模块508，用于存储性能监测模块504的监测结果、模型分析模块505的分析结果、数据分析模块506的分析结果和诊断模块507的诊断结果。

由于上述各模块的功能，本申请实施例提供的评估系统可向用户提供评估AI模型的业务，且该评估系统可以深度分析不同数据特征对AI模型的影响等分析结果，进一步向用户提供AI模型优化建议。

基于图1或图2所示的系统架构，请参阅图6，图6是本申请实施例公开的一种AI模型的评估方法的流程示意图。其中，该AI模型的评估方法应用于评估系统。由于评估系统独立地或分布式地部署在计算设备上，因此，该AI模型的评估方法应用于计算设备，即本申请的AI模型的评估方法可以由计算设备中的处理器通过执行存储器存储的计算机指令来执行。如图6所示，该AI模型的评估方法可以包括以下步骤。

601、接收AI模型和评估数据集。

AI模型是已训练的模型，AI模型可以是训练系统发送的，还可以是用户通过终端设备上传的。

评估数据集可以包括多个评估数据和这多个评估数据的标签，每个评估数据对应一个或多个标签，该标签用于表示评估数据对应的真实结果。这多个评估数据的类型相同，可以为图像、视频、音频、文本等。任务类型不同，评估数据集中的评估数据可能不同，也可能相同。例如，在任务类型为图像分类或物体检测的情况下，评估数据集中的评估数据均为图像，在任务类型为语音识别的情况下，评估数据集中的评估数据为音频。标签用于表示评估数据对应的真实结果，对于不同的任务类型和不同的评估数据，标签的形式也不相同。例如，对于评估数据是图像，任务类型是识别图像中的目标的类型的情况，则评估数据的标签即为目标的真实类型。再例如，对于评估数据是图像，任务类型是对图像中的目标进行检测，标签可以是评估图像中的目标对应的检测框，检测框的形状可以为矩形，也可以为圆形，还可以为直线，还可以为其它形状，在此不加限定。即实际上标签是一个具有特定意义的值，是和被标注的评估数据相关联的一个值，这个值可以表示被标注的评估数据的类型、位置或者其它。再例如，在评估数据为音频的情况下，标签可以表示音频为流行音乐、古典音乐等音频的类型。其中，多个评估数据中的每个评估数据可以对应一个标签，也可以对应多个标签。

不同AI模型可以应用到不同的应用场景，而同一AI模型也可以应用到不同的应用场景。AI模型的应用场景不同，AI模型的任务类型可能不同。由于AI模型的任务类型不同，AI模型的评估指标和数据特征也不同。因此，获取到AI模型之后，可以获取AI模型的任务类型的评估指标和数据特征，即获取AI模型的任务类型对应的评估指标和数据特征。在评估系统包括多个任务类型，且每个任务类型分别设置有相应的评估指标和数据特征的情况下，可以获取AI模型的任务类型的评估指标和数据特征。在评估系统包括一个任务类型的情况下，可以获取这个任务类型的评估指标和数据特征。一个任务类型的评估指标可以包括至少一个评估指标，一个任务类型的数据特征可以包括至少一个数据特征。数据特征是对数据本身特性的抽象。数据特征可以为一个或多个，每个数据特征用于表示评估数据集中的评估数据的一方面特征。

在评估系统包括多个任务类型的情况下，任务类型可以是用户预先通过评估系统中的I/O模块输入或选择的。请参阅图7，图7是本申请实施例公开的一种任务创建界面示意图。如图7所示，任务创建界面可以包括数据集、模型类型、模型来源和推理代码。此外，任务创建界面还可以包括其他内容，在此不加限定。数据集后面的框可以用于用户上传评估数据集，也可以用于用户输入评估数据集的存储路径。模型类型后面的框可以用于用户从存储的任务类型中选取AI模型的任务类型，也可以用于用户输入AI模型的任务类型。模型来源后面的框可以用于用户上传AI模型，也可以用于用户输入AI模型的存储路径。推理代码后面的框可以用于用户上传推理代码，也可以用于用户输入推理代码的存储路径。可见，在任务创建完成之后，AI模型的任务类型就已确定。推理代码用于调用AI模型对评估数据集进行推理。推理代码可以包括调用代码，调用代码可以调用AI模型对评估数据集进行推理。推理代码还可以包括预处理代码，预处理代码用于对评估数据集中的评估数据进行预处理，之后调用代码调用AI模型对预处理后的评估数据集进行推理。推理代码还可以包括后处理代码，后处理代码用于对推理的结果进行处理得到推理结果。

602、计算评估数据集中每个评估数据的数据特征的值。

接收到AI模型和评估数据集之后，可以计算评估数据集中每个评估数据的数据特征的值，即根据数据集包括的多个评估数据以及多个评估数据的标签计算评估数据集中每个评估数据的数据特征的值。数据特征的值是用于衡量数据特性的值。数据特征可以是一个，也可以是多个。在数据特征为多个的情况下，可以计算评估数据集中每个评估数据的多个数据特征中每个数据特征的值。

在任务类型为图像分类的情况下，评估数据集中每个评估数据为图像，数据特征可以包括图像的长宽比、所有图像的RGB的均值和标准差、图像的色彩度、图像的分辨率、图像的模糊度、图像的亮度、图像的饱和度等通用图像特征。图像的长宽比为图像的宽度与高度的比值，图像的长宽比AS可以表示如下：

ImageH为图像的高，ImageW为图像的宽。所有图像的RGB的均值为评估数据集包括的所有图像中R通道的值的平均值、G通道的值的平均值和B通道的值的平均值。所有图像的RGB的均值T_mean可以表示如下：

n为评估数据集包括的图像的数量。(R,G,B)_i中的R为评估数据集包括的第i张图像中所有像素点R通道的值的和，(R,G,B)_i中的G为评估数据集包括的第i张图像中所有像素点G通道的值的和，(R,G,B)_i中的B为评估数据集包括的第i张图像中所有像素点B通道的值的和。所有图像的RGB的均值可以拆分为以下三个公式：

T_mean,R为n张图像的R通道的值的平均值，T_mean,G为n张图像的G通道的值的平均值，T_mean,B为n张图像的B通道的值的平均值。R_i为评估数据集包括的第i张图像中所有像素点R通道的值的和，G_i为评估数据集包括的第i张图像中所有像素点G通道的值的和，B_i为评估数据集包括的第i张图像中所有像素点B通道的值的和。所有图像的RGB的标准差T_STD可以表示如下：

图像的色彩度为图像的色彩的丰富程度，图像的色彩度CO可以表示如下：

STD()为对括号内的内容进行标准差计算。图像的分辨率为单位英寸中所包含的像素点数。图像的模糊度为图像的模糊程度。图像的亮度为图像中画面的明亮程度，图像的亮度BR可以表示如下：

图像的饱和度为图像中色彩的纯度，图像的饱和度SA可以表示如下：

m为一张图像包括的像素点的数量，max(R,G,B)_j为一张图像中第j个像素点中R通道的值、G通道的值和B通道的值中的最大值，min(R,G,B)_j为一张图像中第j个像素点中R通道的值、G通道的值和B通道的值中的最小值。

在任务类型为物体检测的情况下，评估数据集中每个评估数据为图像，数据特征可以包括标注框的数量、标注框的面积占图像的比重、标注框的面积方差、标注框距离图像边缘的程度、标注框的重叠度、图像的长宽比等基于标注框的特征、图像的分辨率、图像的模糊度、图像的亮度、图像的饱和度等。标注框即训练数据集中的训练图像的标签，在训练图像中，待识别的一类或多类物体采用标注框进行标注，使得在对AI模型进行训练的过程中，AI模型将学习到训练图像中标注框内的物体的特征，进而使得AI模型具备检测图像中的该一类或多类物体的能力。标注框的面积占图像的比重为标注框的面积占图像面积的比例，标注框的面积占图像的比重AR可以表示如下：

BboxW为标注框的宽，即评估数据包括的标签对应的标注框的宽。BboxH为标注框的高，即评估数据包括的标签对应的标注框的高。标注框的重叠度为一个标注框被其它标注框覆盖部分所占这个标注框的比例，标注框的重叠度OV可以表示如下：

M为一张图像包括的标注框的数量与1的差值，C为这张图像包括的标注框中的目标框的区域，area(C)为目标框的面积，G_k为这张图像包括的标注框中除目标框之外的第k个标注框的区域，C∩G_k为目标标注框的区域与第k个标注框的区域的重叠区域，area(C∩G_k)为目标标注框的区域与第k个标注框的区域的重叠区域的面积。标注框距离图像边缘的程度MA可以表示如下：

imgx为一张图像的中心点在x轴的坐标，imgy为这张图像的中心点在y轴的坐标，x为这张图像中标注框的中心点在x轴的坐标，y为这张图像中标注框的中心点在y轴的坐标。

在任务类型为自然语言中的文本分类的情况下，数据特征可以包括字数、非重复单词数量、长度、停止词数量、标点符号数量、标题式单词数量、单词的平均长度、词频统计(term frequency，TF)、逆文本频度(inverse document freq uency，UDF)等。字数，用于统计每一行文本(text)的词汇数量。非重复单词数量，用于统计每一行文本中只出现一次的单词个数。长度，用于统计每一行文本的长度占了多少存储空间(包含空格、符号、字母等的长度)。停止词数量，用于统计在…中间(between)、但(but)、关于(about)、非常(very)等词汇的数量。标点符号数量，用于统计每一行文本中包含的标点符号数量。大写单词数量，用于统计大写单词数量。标题式单词数量，用于统计单词拼写首字母为大写，且其他字母为小写的单词数量。单词的平均长度，用于统计每一行文本中每个单词长度的平均值。

在任务类型为音频中的声音分类的情况下，数据特征可以包括短时平均过零率(zero crossing rate)、短时能量(energy)、能量熵(entropy of energy)、频谱中心(spectral centroid)、频谱延展度(spectral spread)、谱熵(spectral entropy)、频谱通量(spectral flux)等。短时平均过零率，为每帧信号内信号过零点的次数，用于体现频率特性。短时能量，为每帧信号的平方和，用于体现信号能量的强弱。能量熵，与频谱的谱熵(spectral entropy)有点类似，但它描述的是信号的时域分布情况，用于体现连续性。频谱中心，又称为频谱一阶距，频谱中心的值越小，表明越多的频谱能量集中在低频范围内，如：说话声(voice)与音乐(music)相比，通常频谱中心较低。频谱延展度，又称为频谱二阶中心矩，它描述了信号在频谱中心周围的分布状况。谱熵，根据熵的特性可以知道，分布越均匀，熵越大，谱熵反应每一帧信号的均匀程度，如说话人频谱由于共振峰存在显得不均匀，而白噪声的频谱就更加均匀，借此进行语音活体检测(voice activity detection，VAD)便是应用之一。频谱通量，用于描述相邻帧频谱的变化情况。

可以根据类似上述给出的方式或公式计算评估数据集中每个评估数据的数据特征的值。

603、按照评估数据集中每个评估数据的数据特征的值，将评估数据集中的评估数据划分为至少一个评估数据子集。

计算出评估数据集中每个评估数据的数据特征的值之后，可以按照评估数据集中每个评估数据的数据特征的值的分布或者根据预设定的划分阈值，将评估数据集中的评估数据划分为至少一个评估数据子集。即根据数据特征的值对评估数据集中的评估数据进行分类得到评估数据子集。评估数据的数据特征可以有多种，可以根据每种数据特征对评估数据集进行划分。例如，在任务类型为图像分类，数据特征包括图像的亮度和图像的饱和度的情形下，计算出评估数据集中每个图像的亮度值和饱和度值之后，可以将评估数据集中的评估数据按照亮度值的分布进分为至少一个评估数据子集，以及可以将评估数据集中的评估数据按照饱和度值的分布划分为至少一个评估数据子集。将评估数据集中的评估数据按照数据特征值的分布进行划分时，可以是按照阈值进行划分的，也可以是按照百分比进行划分的，还可以通过其它方式进行划分的，在此不加限定。

举例说明，以按照百分比进行划分为例进行说明。数据特征包括图像的亮度，评估数据集包括100张图像。可以先将这100张图像按照图像的亮度值从大到小或从小到大的顺序进行排序，之后将排序后的100张图像按照百分比划分为四个评估数据子集，这四个评估数据子集中每个评估数据子集可以包括25张图像。按照百分比划分时，可以是均分的，也可以是不均分的。

举例说明，以按照阈值划分为例进行说明。数据特征包括图像的亮度，评估数据集包括100张图像。可以先将这100张图像按照图像的亮度值从大到小或从小到大的顺序进行排序。之后可以将亮度值大于或等于第一阈值的图像划分为第一评估数据子集，可以将亮度值小于第一阈值且大于或等于第二阈值的图像划分为第二评估数据子集，可以将亮度值小于第二阈值且大于或等于第三阈值的图像划分为第三评估数据子集，可以将亮度值小于第三阈值的图像划分为第四评估数据子集。第一阈值、第二阈值和第三阈值依次减小，第一数据子集、第二数据子集、第三数据子集和第四数据子集包括的图像的数量可以相同，也可以不同。

经过划分得到的每个评估数据子集中的所有评估数据的数据特征的值满足同一组条件。条件可以是：评估数据子集中的所有评估数据的数据特征的值均在特定的数值范围(例如：所有评估数据的图像的亮度值均在0-20％范围内)，或者评估数据子集中的所有评估数据的数据特征的值符合特定的特征(例如：所有评估数据的图像的长宽比为偶数)。

在另一种实施例中，还可以根据多个数据特征对评估数据集进行划分，以获得至少一个评估数据子集，由此划分得到的评估数据子集中的评估数据的多个数据特征的值满足同一组条件中的多个子条件，即评估数据子集中的评估数据的每个数据特征的值满足该数据特征对应的一个子条件。例如，评估数据为图像，其数据特征包括两个：图像的亮度和图像的长宽比。可以将评估数据集中图像的亮度在第一阈值范围内，且图像的长宽比在第二阈值范围内的图像划分为一个评估数据子集，即该评估数据子集中的所有评估数据对应的两个数据特征的值分别满足对应的一个子条件。评估数据子集为评估数据集的子集，即评估数据子集包括的评估数据为评估数据集包括的评估数据中的部分数据。

604、使用AI模型对至少一个评估数据子集中的评估数据进行推理得到推理结果。

获取到AI模型和评估数据集之后，或者按照评估数据集中每个评估数据在数据特征下的数据特征值的分布，将评估数据集中的评估数据划分为至少一个评估数据子集之后，可以使用AI模型对至少一个评估数据子集中每个评估数据子集的评估数据进行推理得到推理结果。可以将每个评估数据子集中的评估数据输入AI模型对该评估数据子集中的评估数据进行推理。可以通过推理代码调用AI模型对评估数据子集中的评估数据进行推理。推理代码可以包括调用代码，用于调用AI模型对评估数据子集中的评估数据进行推理。在使用AI模型对评估数据子集中的评估数据进行推理之前，为了保证评估数据在某些方面的一致性，例如，在评估数据为图像的情况下，为了保证图像大小的一致性，可以先对评估数据子集中的评估数据进行预处理。推理代码还可以包括预处理代码，用于对评估数据子集中的评估数据进行预处理。在使用AI模型对评估数据子集中的评估数据进行推理之后，可能需要对推理的结果进行处理。可选地，推理代码还可以包括后处理代码，用于对推理的结果进行后处理。预处理代码、调用代码和后处理代码是依次执行的。在图1对应的系统架构下，推理代码是根据AI模型开发的。在图2对应的系统架构下，推理代码是客户提供的。

值得注意的是，在另一些实施例中，在执行对AI模型进行评估的方法时，可以不按照上述步骤603和步骤604的顺序，可以是先使用AI模型对评估数据集中所有评估数据进行推理，获得评估数据集中所有评估数据的推理结果，再根据评估数据集中每个评估数据在数据特征下的数据特征值的分布将评估数据集划分为至少一个评估数据子集，获得每个评估数据子集中的评估数据对应的推理结果。

605、将每个评估数据的推理结果和每个评估数据的标签进行比较，根据比较结果计算AI模型对每个评估数据子集的推理的准确度，获得评估结果。

使用AI模型对至少一个评估数据子集中的评估数据进行推理得到推理结果之后，可以先将每个评估数据的推理结果和每个评估数据的标签进行比较，当评估数据的推理结果和评估数据的标签相同时，可认为AI模型对该评估数据的推理结果是准确的，比较结果为正确；当评估数据的推理结果和评估数据的标签不相同时，可认为AI模型对该评估数据的推理结果是不准确的，比较结果为不正确。根据比较结果可以计算AI模型对每个评估数据子集的推理的准确度，获得评估结果。根据比较结果计算AI模型对每个评估数据子集的推理的准确度获得评估结果时，可以根据比较结果计算AI模型对至少一个评估数据子集中每个评估数据子集的评估数据的推理结果在评估指标下的评估指标值，得到评估结果。准确度可以使用该AI模型的一个或多个评估指标来衡量。

在任务类型为图像分类的情况下，评估指标可以包括混淆矩阵、准确率(accuracy)、精确率(presicion)、召回率(recall)、接收者操作特征(receiver operatingcharacteristic，ROC)曲线、F1值(score)等。在图像分类为二分类的情况下，类别可以包括正类和负类，可以将样本根据其真实类别与预测出来的类别划分为真正(true positive，TP)、真负(true negative，TN)、假正(false positive，FP)和假负(false negative，FN)。TP为AI模型预测出的类别为正类的真实类别为正类的样本的数量，即第一标签所标注的样本为正样本，第一标签所标注的样本的推理结果为正的样本的数量。TN为AI模型预测出的类别为负类的真实类别为负类的样本的数量，即第一标签所标注的样本为负样本，第一标签所标注的样本的推理结果为负的样本的数量。FP为AI模型预测出的类别为正类的真实样本为负类的样本的数量，即第一标签所标注的样本为负样本，第一标签所标注的样本的推理结果为正的样本的数量。FN为AI模型预测出的类别为负类的真实类别为正类的样本的数量，即第一标签所标注的样本为正样本，第一标签所标注的样本的推理结果为负的样本的数量。混淆矩阵包括TP、TN、FP和FN，混淆矩阵可以如表1所示：

表1混淆矩阵

准确率为预测正确的样本数占总样本数的比例，在图像分类为二分类的情况下，准确率AC可以表示如下：

精确率为正确预测为正的样本数占所有预测为正的样本数的比例，在图像分类为二分类的情况下，精确率PR可以表示如下：

召回率为正确预测为正的样本数占所有正样本数的比例，在图像分类为二分类的情况下，召回率RE可以表示如下：

F1值为算数平均数与几何平均数的比值，F1值可以表示如下：

ROC曲线为纵轴为正阳性率(true positive ratio，TPR)、横轴为伪阳性率(falsepositive ratio，FPR)的曲线。TPR为预测为正的真实为正的样本数占所有真实为正的样本数的比例。FPR为预测为正的真实为副的样本数占所有真实为负的样本数的比例。在图像分类为二分类的情况下，FPR和TPR可以表示如下：

在任务类型为物体检测的情况下，评估指标可以包括平均精度均值(meanaverage precision，mAP)、准确率-召回率(presicion-recall，P-R)曲线等。P-R曲线为横坐标为召回率，纵坐标为准确率的曲线。mAP为平均精度(average precision，AP)的均值，AP为P-R曲线围起来的面积。mAP和AP可以表示如下：

Q为标签的数量，AP(q)为第q个标签的平均精度，N为预测出的标注框的数量，RE_idx为预测出的第idx个标注框的召回率，RE_idx-1为预测出的第idx-1个标注框的召回率，PR_idx为预测出的第idx个标注框的精确率。

在任务类型为自然语言中的文本分类的情况下，评估指标可以包括准确率、精确率、召回率、F1值等。在任务类型为音频中的声音分类的情况下，评估指标可以包括准确率、精确率、召回率、F1值等。

在评估指标下的评估指标值可以根据上述公式进行计算，也可以根据其他方式计算，在此不加限定。评估结果可以包括AI模型对每个数据特征对应的评估数据子集中的评估数据的推理结果在评估指标下的评估指标值。针对一个评估指标和一个数据特征，在这个数据特征下的多个数据特征值可以对应在这个评估指标下的一个评估指标值。评估结果还可以包括根据AI模型对每个数据特征对应的评估数据子集中的评估数据的推理结果在评估指标下的评估指标值得到的现象，如图像的亮度对准确率的影响较大等。例如，任务类型为人脸检测，数据特征包括标注框的面积占图像的比重，评估指标包括召回率，评估结果可以如表2所示：

表2评估结果

可选地，执行完上述步骤601-步骤605后，上述方法还可以包括：根据评估结果，生成对AI模型的优化建议，优化建议可以是根据AI模型目前对各个评估数据子集的评估结果，建议继续增加与其中一个或多个评估数据子集中的评估数据满足同一组条件的新数据继续训练AI模型，通常当前AI模型对该一个或多个评估数据子集的推理的准确度还不满足模型需求或者当前AI模型对该一个或多个评估数据子集的推理的准确度相较于其他评估数据子集较低。例如，对于表2中的评估结果，优化建议可以为用标注框的面积占图像的比重满足0％-20％这个条件的新数据训练AI模型。应理解，对于根据优化建议获得的继续用于训练的新数据可以是重新采集的数据，也可以是对原来的训练数据中的数据的数据特征的值进行调整后的数据。

可选地，可以根据评估结果确定数据特征对评估指标的敏感度。具体地，可以对数据特征的值和AI模型对每个数据特征对应的每个评估数据子集的评估数据的推理结果在评估指标下的评估指标值进行回归分析，得到数据特征对评估指标的敏感度。即可以将在数据特征的值作为输入，将AI模型对每个数据特征对应的每个评估数据子集的评估数据的推理结果在评估指标下的评估指标值作为输出，进行回归分析，可以得到数据特征对评估指标的敏感度。例如，使用线性回归f(z_t)＝W^Tz_t，一组数据特征的值为z_t向量，如包含图像的亮度值、清晰度值、分辨率值和饱和度值4个维度，将数据特征对应的评估数据子集的评估数据的推理结果在评估指标下的评估指标值作为f(z_t)，拟合出的W向量就是每个数据特征对每个评估指标的影响权重，即敏感度。

计算出数据特征中每个数据特征对每个评估指标的敏感度之后，可以根据每个数据特征对每个评估指标的敏感度，生成对AI模型的优化建议。可以在敏感度大于一定值的情况下认为该数据特征对评估指标的影响较大，同时针对该现象可以生成对应的优化建议。例如，在图像的亮度对准确度影响较大的情况下，可以给出增加图像的亮度值在一个或多个范围内的图像继续训练AI模型，由于当前AI模型对该一个或多个范围内的图像的推理的准确度还有提升空间，根据该优化建议用新的数据继续训练当前AI模型后，AI模型的推理能力较大概率地可以提升。

可选地，上述方法还可以包括：生成评估报告，发送评估报告。评估报告可以包括评估结果和优化建议中的至少一种。根据比较结果计算出AI模型对每个评估数据子集的推理的准确度获得评估结果之后，和/或根据评估结果生成对AI模型的优化建议之后，可以生成包括评估结果和/或优化建议的评估报告。

可选地，上述方法还可以包括：计算AI模型对评估数据集的整体推理的准确度。具体地，可以先确定AI模型对评估数据集中的评估数据的推理结果，之后将每个评估数据的推理结果和每个评估数据的标签进行比较，最后根据比较结果计算AI模型对评估数据集的推理的准确度，得到AI模型对全局数据的评估结果。此处与上面不同在于，此处不需要将评估数据集划分为多个评估数据子集，而是将评估数据集作为一种整体来进行计算的，由于评估数据集中的所有评估数据为没有进行特别选择的数据，通过AI模型对评估数据集整体的推理能力进行评估，可以评估AI模型对全局数据的推理能力，即AI模型对任何一种可以作为该AI模型的输入的数据的推理能力。本申请中的全局数据为未根据任何一种数据特征进行分类获得的数据，其可以代表任何一种可以用作该AI模型的输入的数据。

可选地，上述评估报告还可以包括AI模型对评估数据集中的推理的准确度。

可选地，上述方法还可以包括：获取性能参数。可以在使用AI模型对评估数据集中的评估数据进行推理的过程中，监测硬件资源的使用信息以及AI模型包括的算子的使用时长、算子的使用数量得到性能参数。在使用AI模型对评估数据集进行推理的过程中，可以监测硬件资源的使用信息以及AI模型包括的算子的使用时长、算子的使用数量。硬件资源可以包括中央处理器(central processing unit，CPU)、图像处理器(graphics processingunit，GPU)、物理内存、GPU显存等。可以使用性能监控进程监控推理过程。具体地，可以调用GPU性能监测工具，如NVIDIA系统管理接口(system management interface，SMI)，采集GPU的使用率和显存占用。可以调用CPU性能监控工具，如topvmstatiostat，采集CPU的使用率和显存占用。可以调用算子性能监测工具，如分析器(profiler)工具，采集AI模型包括的算子的使用时长、算子的使用数量。

可选地，上述优化建议还可以包括根据性能参数生成的优化建议。获取到性能参数之后，可以根据性能参数生成对AI模型的优化建议。可以根据硬件资源的使用信息、AI模型包括的算子的使用时长、算子的使用数量以及性能调优知识库，生成对AI模型的性能优化建议。性能调优知识库可以包括硬件资源的使用信息对应的现象、算子的使用情况对应的现象以及硬件资源的使用信息对应的现象和算子的使用情况对应的现象对应的性能优化方式。例如，在硬件资源的使用信息对应的现象为显存消耗较多的情况下，性能优化建议可以为将AI模型的参数的精度调整为8bit量化，也可以为启用算子融合。再例如，在硬件资源的使用信息对应的现象为显存消耗较多，硬件资源的使用信息对应现象对应的性能优化方式可以为将AI模型的参数的精度调整为半精度或int8量化。

可选地，上述步骤可以被多次执行，即进行多次评估。每一次的执行步骤相同，区别在于每一次使用的评估数据集有些许差别。例如，第一次使用的评估数据集为接收的用户上传的或终端设备发送的评估数据集，后续使用的评估数据集是对接收的评估数据集中评估数据的数据特征进行调整后的评估数据集，但调整前后的评估数据不会影响视觉效果。调整可以是加噪声，也可以是改变一个评估数据中部分数据的亮度值，还可以是调整评估数据的其它数据特征，在此不加限定。之后可以综合这多次的评估报告和优化建议得到更加准确地建议和报告，从而可以提高评估的鲁棒性。例如，第二次使用的评估数据集相对接收的评估数据集增加了噪声，第二次的评估报告与第一次的评估报告相比，准确率和精确率降低了，表明噪声对AI模型的影响较大，因此，可以尽量避免噪声的干扰。

可选地，本申请实施例中进行对AI模型进行评估还可以调用引擎相关的工具，如TensorFlow提供的profiler工具、MXNet提供的profiler工具等，分析AI模型的结构、AI模型包括的算子、算子的时间复杂度、算子的空间复杂度等。AI模型的结构可以包括残差结构、多级特征提取等。上述优化建议还可以包括根据上述分析给出AI模型的结构修改建议。例如，在分析出AI模型不包括归一化(batch normalization)层的情况下，由于会带来过拟合的风险，因此，可以生成增加BN层的建议。再例如，在AI模型的结构包括用于特征提取到分类的多级特征，且待识别的标注框包括多个尺度的情况下，可能无法识别到全部尺度的标注框，只能识别出部分尺度的标注框。算子的时间复杂度和空间复杂度可以是线性复杂度，也可以是指数型复杂度。在算子的空间复杂度为指数型复杂度的情况下，表明AI模型的结构比较复杂，可以生成剪支的建议，即调整AI模型的结构。

其中，上述建议和报告可以通过GUI提供给用户，也可以通过java脚本对象简谱(java script object notation，JSON)文档提供给用户，也可以发送到用户的终端设备。

请参阅图8，图8是本申请实施例公开的另一种AI模型的评估方法的流程示意图。其中，该AI模型的评估方法应用于评估系统。如图8所示，该AI模型的评估方法可以包括以下步骤。

801、获取AI模型和评估数据集。

其中，步骤801的详细描述可以参考步骤601。

802、利用AI模型对评估数据集中的评估数据进行推理。

其中，步骤802的详细描述可以参考步骤604。步骤802与步骤604不同在于，步骤802是对评估数据集中的评估数据进行推理，不需要对评估数据集进行划分，而步骤604是对评估数据集中的评估数据划分为至少一个评估数据子集中的评估数据进行推理，先需要将评估数据集中的评估数据划分为至少一个评估数据子集。

803、获取性能数据。

可以在使用AI模型对评估数据集中的评估数据进行推理的过程中，监测推理过程中硬件的性能表现，即硬件资源的使用信息，以及AI模型包括的算子的使用时长、算子的使用数量得到性能参数。即性能数据用于表示在AI模型对评估数据进行推理的过程中，执行推理过程的硬件的性能表现，或者在AI模型对评估数据进行推理的过程中AI模型包括的算子的使用情况。其中，算子的使用情况表示AI模型中的每种算子在推理过程中的使用时长或者每种算子在AI模型中使用的数量。步骤803的详细描述可以参考上面的相关描述。

804、根据性能数据生成对AI模型的优化建议。

获取到性能数据之后，可以根据性能数据生成对AI模型的优化建议。优化建议可以包括对AI模型的结构进行调整，也可以包括针对AI模型的算子进行优化训练。其中，步骤804的详细描述可以参考上面的相关描述。

可选地，上述方法还可以包括：生成评估报告，发送评估报告。根据性能数据生成对AI模型的优化建议之后，可以生成评估报告，并发送评估报告，可以是发送给终端设备，也可以是发送给用户的邮箱等。评估报告可以包括性能数据和优化建议中的至少一个。

可选地，上述方法还可以包括：计算AI模型对评估数据集的推理的准确度。具体地，可以先确定AI模型对评估数据集中的评估数据的推理结果，之后将每个评估数据的推理结果和每个评估数据的标签进行比较，最后根据比较结果计算AI模型对评估数据集的推理的准确度。详细描述可以参考上面的相关描述。

下面结合具体的例子，针对评估数据集中的评估数据为微生物图像，以及任务类型为物体检测的AI模型执行上述步骤。AI模型对评估数据集中的评估数据进行推理后，推理结果包括检测到的上皮细胞、亚生孢子、球菌、白细胞、孢子、菌子和线索细胞。在数据特征包括图像的亮度、评估指标包括F1值的情况下，评估报告中的评估结果可以包括AI模型对按照亮度值分布划分的4个评估数据子集的评估数据的FI值，可以如表3所示：

表3按照亮度值分布划分的4个评估数据子集的FI值如表3所示，在步骤603中可以对微生物图像按照亮度值从大到小或从小到大的顺序进行排列，之后将最前面的25％(即0-25％)评估数据确定为第一评估数据子集，将接下来的25％(即25％-50％)评估数据确定为第二评估数据子集，再将接下来的25％(即50％-75％)评估数据确定为第三评估数据子集，将最后的25％(即75％-100％)评估数据确定为第四评估数据子集。之后在步骤605中分别计算第一评估数据子集-第四评估数据子集中上皮细胞、亚生孢子、球菌、白细胞、孢子、菌子和线索细胞的F1值。此外，在步骤605中，计算出第一评估数据子集-第四评估数据子集中上皮细胞、亚生孢子、球菌、白细胞、孢子、菌子和线索细胞的F1值之后，还可以计算第一数据子集-第四数据子集中的上皮细胞、亚生孢子、球菌、白细胞、孢子、菌子和线索细胞的F1值的mAP，以及计算所有评估数据的上皮细胞、亚生孢子、球菌、白细胞、孢子、菌子和线索细胞的F1值的标准差STD，即敏感度。通过表3可以得到图像的亮度对上皮细胞和线索细胞的影响较大的结论，相应地，可以给出增加图像的亮度值在25％-50％之间以及图像的亮度值在50％-75％之间的图像对AI模型进行训练的建议。在数据特征包括标注框的大小、评估指标包括F1值的情况下，评估报告中的评估结果可以包括AI模型对按照标注框大小分布划分的4个评估数据子集的评估数据的FI值，可以如表4所示：

表4按照标注框大小分布划分的4活人评估数据子集的F1值表4与表3的过程相似，在此不再详细赘述。通过表4可以得到标注框大小对上皮细胞和线索细胞的影响较大的结论，相应地，可以给出增加标注框大小在0-25％之间、标注框大小在25％-50％之间以及标注框大小在50％-75％之间的图像对AI模型进行训练。请参阅图9，图9是本申请实施例公开的微生物检测的标注框亮度的分布图。如图9所示，标注框所在区域的亮度大多都集中在50-170之间。请参阅图10，图10是本申请实施例公开的微生物检测的标注框的面积占图像的比重的分布图。如图10所示，标注框的面积占图像的比重大多都集中在0-0.05之间。评估报告还可以包括性能数据，获取的性能数据中的硬件资源的使用信息可以如表5所示：

硬件资源的使用信息	峰值	均值
			GPU使用率	65％	30％
CPU使用率	60％	40％
			物理内存	390M	270M
GPU显存	1570M	1240M

表5硬件资源的使用信息

根据表5可以得出显存消耗较多的结论，相应地，可以给出将AI模型中参数精度调整为半精度或int8量化的建议。获取的性能数据中的算子的使用情况下可以如表6所示：

算子	总使用时长	平均使用时长	使用数量
				检测框生成(contrib_Proposal)	1329.748ms	120.886ms	11
卷积(convolution)、激活(activation)	1221.938ms	9.257ms	132
				卷积、激活、池化(pooling)	1162.373ms	23.722ms	49
全连接(fullyconnected)、激活	260.557ms	13.028ms	20
				归一化(softmax)	138.426ms	12.584ms	11
降维(flatten)	130.858ms	13.086ms	10
				重置形状(reshape)	32.838ms	2.985ms	11

表6算子的使用情况

根据表6可以得出检测框生成算子耗时较多的结论，相应地，可以给出对检测框生成算子进行优化的建议。执行完一次评估之后，可以根据上述给出的建议重新训练微生物细胞对应的AI模型。请参阅图11，图11是本申请实施例公开的一种微生物细胞对应的AI模型重新训练前后mAP示意图。如图11所示，重新训练前的mAP为0.4421。对图像进行随机缩放后重新训练后的mAP为0.4482，对图像的亮度调整后重新训练后的mAP为0.45。可见，根据建议重新训练后的AI模型优于重新训练前的。

下面结合具体的例子，针对评估数据集中的评估数据为人物图像，以及任务类型为物体检测的训练好的AI模型执行上述步骤。AI模型对评估数据集中的评估数据进行推理后，推理结果包括五类，分别为未带安全帽、带白色安全帽、带黄色安全帽、带红色安全帽和带蓝色安全帽。请参阅图12，图12是本申请实施例公开的一种用于安全帽检测的AI模型的FI值与置信度阈值的曲线。其中，F1值是根据比较结果计算AI模型对每个评估数据子集的推理的准确度获得评估结果的步骤计算出的。如图12所示，随着置信度阈值的增大，F1值先增大后减小。在置信度阈值为0.37时，F1值最大，因此，可以将置信度阈值设置为0.37。请参阅图13，图13是本申请实施例公开的一种用于安全帽检测的AI模型的P-R曲线。其中，P-R曲线是通过根据比较结果计算AI模型对每个评估数据子集的推理的准确度获得评估结果的步骤计算得到的。如图13所示，五类检测结果的P-R曲线不同。在数据特征包括模糊度、评估指标包括召回率的情况下，评估报告可以包括AI模型对按照模糊度分布划分的4个评估数据子集的评估数据的召回率值，可以如表7所示：

表7按照模糊度分布划分的4个评估数据子集的评估数据的召回率值通过表7可以得到图像的模糊度对未带安全帽的影响较大，相应地，可以给出增加图像的的模糊度在50％-85％之间以及图像的的模糊度在85％-100％之间的图像对AI模型进行训练的建议。在数据特征包括标注框的数量、评估指标包括召回率的情况下，评估报告可以包括AI模型对按照标注框的数量分布划分的4个评估数据子集的评估数据的召回率值，可以如表8所示：

表8按照标注框的数量分布划分的4个评估数据子集的评估数据的召回率值通过表8可以得到图像的模糊度对未带安全帽、带黄色安全帽和带白色安全帽的影响较大，相应地，可以给出增加标注框的数量在85％-100％之间的图像对AI模型进行训练的建议。

请参阅图14，图14是本申请实施例公开的另一种评估系统1400的结构示意图。如图14所示，该评估系统1400可以包括I/O模块1401、数据分析模块1402、推理模块1403。

可选地，该评估系统1400还可以包括诊断模块1404。

可选地，该评估系统1400还可以包括性能监测模块1405。

可选地，该评估系统1400还可以包括模型分析模块1406。

该评估系统1400中I/O模块1401、数据分析模块1402、推理模块1403、性能监测模块1405和模型分析模块1406的详细描述可以参考图6对应的方法实施例。

请参阅图15，图15是本申请实施例公开的又一种评估系统1500的结构示意图。如图15所示，该评估系统1500可以包括I/O模块1501、推理模块1502、性能监测模块1503和诊断模块1504。

可选地，该评估系统1500还可以包括模型分析模块1505。

该评估系统1500中I/O模块1501、推理模块1502、性能监测模块1503、诊断模块1504和模型分析模块1505的详细描述可以参考图8对应的方法实施例。

请参阅图16，图16为本申请实施例公开的一种计算设备的结构示意图。如图16所示，计算设备1600包括存储器1601、处理器1602、通信接口1603以及总线1604。其中，存储器1601、处理器1602、通信接口1603通过总线1604实现彼此之间的通信连接。

存储器1601可以是只读存储器(read only memory，ROM)，静态存储设备，动态存储设备或者随机存取存储器(random access memory，RAM)。存储器1601可以存储程序，当存储器1601中存储的程序被处理器1602执行时，处理器1602和通信接口1603用于执行前述图6或者图8为用户对AI模型进行评估的方法。存储器1601还可以存储评估数据集。

处理器1602可以采用通用的中央处理器(central processing unit，CPU)，微处理器，应用专用集成电路(application specific integrated circuit，ASIC)，图形处理器(graphics processing unit，GPU)或者一个或多个集成电路。

通信接口1603使用例如但不限于收发器一类的收发模块，来实现计算设备1600与其他设备或通信网络之间的通信。例如，可以通过通信接口1603获取评估数据集。

总线1604可包括在计算设备1600各个部件(例如，存储器1601、处理器1602、通信接口1603)之间传送信息的通路。

由于本申请提供的评估系统500、评估系统1400、评估系统1500中的各个模块可以分布式地部署在同一环境或不同环境中的多个计算机上，因此，请参阅图17，图17为本申请实施例公开的另一种计算设备的结构示意图。如图17所示的计算设备，该计算设备包括多个计算机，每个计算机包括存储器、处理器、通信接口以及总线。其中，存储器、处理器、通信接口通过总线实现彼此之间的通信连接。

存储器可以是ROM，静态存储设备，动态存储设备或者RAM。存储器可以存储程序，当存储器中存储的程序被处理器执行时，处理器和通信接口用于执行评估系统为用户对AI模型进行评估的部分方法。存储器还可以存储评估数据集，例如：存储器中的一部分存储资源被划分成一个数据集存储模块，用于存储评估系统所需的评估数据集，存储器中的一部分存储资源被划分成一个结果存储模块，用于存储评估报告。

处理器可以采用通用的CPU，微处理器，ASIC，GPU或者一个或多个集成电路。

通信接口使用例如但不限于收发器一类的收发模块，来实现计算机与其他设备或通信网络之间的通信。例如，可以通过通信接口获取评估数据集。

总线可包括在计算机各个部件(例如，存储器、处理器、通信接口)之间传送信息的通路。

上述每个计算机间通过通信网络建立通信通路。每个计算机上运行评估系统500、评估系统1400、评估系统1500中的任意一个或多个模块。任一计算机可以为云数据中心中的计算机(例如：服务器)，或边缘数据中心中的计算机，或终端计算设备。

上述各个附图对应的流程的描述各有侧重，某个流程中没有详述的部分，可以参见其他流程的相关描述。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。提供评估的计算机程序产品包括一个或多个进行评估的计算机指令，在计算机上加载和执行这些计算机程序指令时，全部或部分地产生按照本发明实施例图6或图8所述的流程或功能。

所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质存储有提供评估的计算机程序指令的可读存储介质。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如SSD)。

Claims

1.一种人工智能AI模型的评估方法，其特征在于，包括：

计算设备获取所述AI模型和评估数据集，所述评估数据集包括多个携带标签的评估数据，每个评估数据的标签用于表示所述评估数据对应的真实结果；

所述计算设备根据数据特征对所述评估数据集中的评估数据进行分类，获得评估数据子集，所述评估数据子集为所述评估数据集的子集，所述评估数据子集中的所有评估数据的所述数据特征的值满足条件；

所述计算设备确定所述AI模型对所述评估数据子集中的评估数据的推理结果，将所述评估数据子集中的每个评估数据的推理结果和所述评估数据子集中的每个评估数据的标签进行比较，根据比较结果计算所述AI模型对所述评估数据子集的推理的准确度，以获得所述AI模型对所述数据特征的值满足所述条件的数据的评估结果。

2.如权利要求1所述的方法，其特征在于，所述方法还包括：

所述计算设备生成对所述AI模型的优化建议，所述优化建议包括：用所述数据特征的值满足所述条件的新数据训练所述AI模型。

3.如权利要求1或2所述的方法，所述方法还包括：

所述计算设备获取性能数据，所述性能数据表示在所述AI模型对所述评估数据进行推理的过程中，执行所述推理过程的硬件的性能表现，和/或，在所述AI模型对所述评估数据进行推理的过程中所述AI模型包括的算子的使用情况。

4.如权利要求1-3任一项所述的方法，其特征在于，所述方法还包括：

所述计算设备确定所述AI模型对所述评估数据集中的评估数据的推理结果；

所述计算设备根据所述评估数据集中的评估数据的推理结果和所述评估数据集中的评估数据的标签的比较结果，计算所述AI模型对所述评估数据集的推理的准确度，以获得所述AI模型对全局数据的评估结果。

5.如权利要求1-4任一项所述的方法，其特征在于，所述数据特征的数量为多个，所述条件包括多个子条件，所述多个数据特征和所述多个子条件的关系为一一对应；

所述计算设备根据数据特征对所述评估数据集中的评估数据进行分类，获得评估数据子集，包括：

所述计算设备根据所述多个数据特征对所述评估数据集中的评估数据进行分类，获得评估数据子集，其中，所述评估数据子集中的所有评估数据的所述多个数据特征的值中的每个值满足所述条件中对应的子条件。

6.如权利要求1-5任一项所述的方法，其特征在于，所述评估数据集中的评估数据为图像或者音频。

7.一种人工智能AI模型的评估方法，其特征在于，包括：

所述计算设备利用所述AI模型对所述评估数据集中的评估数据进行推理；

所述计算设备获取性能数据，所述性能数据表示在所述AI模型对所述评估数据进行推理的过程中，执行所述推理过程的硬件的性能表现，和/或，在所述AI模型对所述评估数据进行推理的过程中所述AI模型包括的算子的使用情况；

所述计算设备根据所述性能数据，生成对所述AI模型的优化建议，所述优化建议包括：对所述AI模型的结构进行调整，和/或，对所述AI模型的算子进行优化训练。

8.如权利要求7所述的方法，其特征在于，在所述AI模型对所述评估数据进行推理的过程中所述AI模型包括的算子的使用情况，包括：所述AI模型的算子的使用时长、所述AI模型的算子的使用数量。

9.如权利要求7或8所述的方法，其特征在于，所述评估数据集中的评估数据为图像或音频。

10.一种人工智能AI模型的评估系统，其特征在于，所述系统包括：

输入输出I/O模块，用于获取所述AI模型和评估数据集，所述评估数据集包括多个携带标签的评估数据，每个评估数据的标签用于表示所述评估数据对应的真实结果；

数据分析模块，用于根据数据特征对所述评估数据集中的评估数据进行分类，获得评估数据子集，所述评估数据子集为所述评估数据集的子集，所述评估数据子集中的所有评估数据的所述数据特征的值满足条件；

11.如权利要求10所述的系统，其特征在于，所述系统还包括：

12.如权利要求10或11所述的系统，其特征在于，所述系统还包括：

性能监测模块，用于获取性能数据，所述性能数据表示在所述AI模型对所述评估数据进行推理的过程中，执行所述推理过程的硬件的性能表现，和/或，在所述AI模型对所述评估数据进行推理的过程中所述AI模型包括的算子的使用情况。

13.如权利要求10-12任一项所述的系统，其特征在于，所述推理模块，还用于确定所述AI模型对所述评估数据集中的评估数据的推理结果；

所述系统还包括：

14.如权利要求10-13任一项所述的系统，其特征在于，所述数据特征的数量为多个，所述条件包括多个子条件，所述多个数据特征和所述多个子条件的关系为一一对应；

所述数据分析模块，具体用于根据所述多个数据特征对所述评估数据集中的评估数据进行分类，获得评估数据子集，其中，所述评估数据子集中的所有评估数据的所述多个数据特征的值中的每个值满足所述条件中对应的子条件。

15.如权利要求10-14任一项所述的系统，其特征在于，所述评估数据集中的评估数据为图像或者音频。

16.一种人工智能AI模型的评估系统，其特征在于，所述系统包括：

诊断模块，用于根据所述性能数据，生成对所述AI模型的优化建议，所述优化建议包括：对所述AI模型的结构进行调整，和/或，对所述AI模型的算子进行优化训练。

17.如权利要求16所述的系统，其特征在于，在所述AI模型对所述评估数据进行推理的过程中所述AI模型包括的算子的使用情况，包括：所述AI模型的算子的使用时长、所述AI模型的算子的使用数量。

18.如权利要求16或17所述的系统，其特征在于，所述评估数据集中的评估数据为图像或音频。

19.一种计算设备，其特征在于，所述计算设备包括存储器和处理器，所述存储器用于存储一组计算机指令；

所述处理器执行所述存储器存储的一组计算机指令，以执行上述权利要求1至9中任一项所述的方法。

20.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序代码，当所述计算机程序代码被计算设备执行时，所述计算设备执行上述权利要求1至9中任一项所述的方法。