CN116483733A

CN116483733A - 多维度人工智能产品评测方法及装置

Info

Publication number: CN116483733A
Application number: CN202310687517.1A
Authority: CN
Inventors: 丰强泽; 齐红威; 何鸿凌; 肖永红; 王大亮
Original assignee: Hebei Shuyuntang Intelligent Technology Co ltd; Datatang Beijing Technology Co ltd
Current assignee: Hebei Shuyuntang Intelligent Technology Co ltd; Datatang Beijing Technology Co ltd
Priority date: 2023-06-12
Filing date: 2023-06-12
Publication date: 2023-07-25

Abstract

本发明公开了一种多维度人工智能产品评测方法及装置，该方法包括：确定人工智能产品的评测对象，所述评测对象包括人工智能模型、人工智能算法和人工智能硬件；确定每个评测对象在每个评测维度的评测项，所述评测维度包括功能评测、性能评测和安全性评测；采集每个评测对象在每个评测维度的评测项的评测数据，按照每个评测项的评测方法，对该评测对象进行评测，获得该评测对象在该评测维度的该评测项的评测结果；其中，评测对象在功能评测的评测项的评测方法为基于环境条件集合的评测方法。本发明可以针对人工智能技术评测对象，实现人工智能的全周期评测。

Description

多维度人工智能产品评测方法及装置

技术领域

本发明涉及评测技术领域，尤其涉及一种多维度人工智能产品评测方法及装置。

背景技术

本部分旨在为权利要求书中陈述的本发明实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

人工智能作为一项变革性的技术已经渗透到了各行各业，随着人工智能在各行各业的应用日益广泛，对人工智能系统测试的需求也与日俱增。以自动驾驶为例，如果自动驾驶的智能系统做出错误的决策或响应时间慢，则将大大增加车祸的风险。类似地，金融领域人工智能的错误决策可能导致不可估量的经济损失。人工智能技术的评测维度众多，功能是否符合要求、精度达到多少、推断耗时多久、计算资源消耗多大、是否有安全隐患，这些都需要测试到位。

现有的AI评测技术还比较片面，主要集中对AI模型的准确率、精度等部分功能性指标的评测，忽视了性能和安全性等其他方面的评测。

发明内容

本发明实施例提供一种多维度人工智能产品评测方法，用以针对人工智能技术评测对象，实现人工智能的全周期评测，该方法包括：

确定人工智能产品的评测对象，所述评测对象包括人工智能模型、人工智能算法和人工智能硬件；

确定每个评测对象在每个评测维度的评测项，所述评测维度包括功能评测、性能评测和安全性评测；

采集每个评测对象在每个评测维度的评测项的评测数据，按照每个评测项的评测方法，对该评测对象进行评测，获得该评测对象在该评测维度的该评测项的评测结果；

其中，评测对象在功能评测的评测项的评测方法为基于环境条件集合的评测方法。

本发明实施例还提供一种多维度人工智能产品评测装置，用以针对人工智能技术评测对象，实现人工智能的全周期评测，该装置包括：

评测对象确定模块，用于确定人工智能产品的评测对象，所述评测对象包括人工智能模型、人工智能算法和人工智能硬件；

评测项确定模块，用于确定每个评测对象在每个评测维度的评测项，所述评测维度包括功能评测、性能评测和安全性评测；

评测模块，用于采集每个评测对象在每个评测维度的评测项的评测数据，按照每个评测项的评测方法，对该评测对象进行评测，获得该评测对象在该评测维度的该评测项的评测结果；

本发明实施例还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述多维度人工智能产品评测方法。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述多维度人工智能产品评测方法。

本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序被处理器执行时实现上述多维度人工智能产品评测方法。

本发明实施例中，确定人工智能产品的评测对象，所述评测对象包括人工智能模型、人工智能算法和人工智能硬件；确定每个评测对象在每个评测维度的评测项，所述评测维度包括功能评测、性能评测和安全性评测；采集每个评测对象在每个评测维度的评测项的评测数据，按照每个评测项的评测方法，对该评测对象进行评测，获得该评测对象在该评测维度的该评测项的评测结果；其中，评测对象在功能评测的评测项的评测方法为基于环境条件集合的评测方法。与现有技术中主要集中对AI模型的准确率、精度等部分功能性指标的评测，忽视了性能和安全性等其他方面的评测的技术方案相比，能够对人工智能模型、人工智能算法和人工智能硬件实现功能评测、性能评测和安全性评测等多个维度的评测，且评测对象在功能评测的评测项的评测方法为基于环境条件集合的评测方法，从而实现了可以实现评测对象在功能评测的评测项为完备性及正确性评测，可以更加清晰地发现人工智能产品的优势和劣势。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1为本发明实施例中多维度人工智能产品评测方法的流程图；

图2为本发明实施例中多维度人工智能产品评测的结构图；

图3为本发明实施例中多维度人工智能产品评测装置的示意图；

图4为本发明实施例中多维度人工智能产品评测装置的另一示意图；

图5为本发明实施例中计算机设备的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白，下面结合附图对本发明实施例做进一步详细说明。在此，本发明的示意性实施例及其说明用于解释本发明，但并不作为对本发明的限定。

首先对本发明涉及的术语进行解释。

功能指标：正确率，召回率，AUC，F-score、mAP等业内常用的衡量一项人工智能技术精度等的指标。

对抗攻击：采用对抗学习技术生成对抗性数据，然后对人工智能技术进行攻击从而得到欺骗的识别结果。

活体攻击：使用照片、视频等非活体数据来伪装真人欺骗人工智能技术。

成员推理攻击：作为一种隐私攻击方法，攻击目标是推理一条或一批数据是否作为目标模型的训练集，以此达到攻击的效果。基于目标模型的输出，攻击分类器获取成员和非成员数据的特征、损失差异，以此实现成员推理。

反演攻击：攻击者根据人工智能技术的输出结果逆向推理出原有训练集中的重要信息。

图1为本发明实施例中多维度人工智能产品评测方法的流程图，包括：

步骤101，确定人工智能产品的评测对象，所述评测对象包括人工智能模型、人工智能算法和人工智能硬件；

步骤102，确定每个评测对象在每个评测维度的评测项，所述评测维度包括功能评测、性能评测和安全性评测；

步骤103，采集每个评测对象在每个评测维度的评测项的评测数据，按照每个评测项的评测方法，对该评测对象进行评测，获得该评测对象在该评测维度的该评测项的评测结果；

图2为本发明实施例中多维度人工智能产品评测的结构图，下面进行详细介绍。

一、功能评测

评测对象在功能评测的评测项为完备性及正确性评测。一项AI技术形成的人工智能产品从实验室进入实际应用时，会面临各种复杂的实际环境，为了全面客观地评价人工智能模型、算法、硬件的预测性能，而不仅仅是用传统方法计算一个整体的Precision、Accuracy、Recall、F-score、WER等指标结果，首先针对不同类型AI任务进行相应的环境条件定义，这些环境条件是最能刻画该类人工智能产品所面临的各种实际环境特征，然后使用针对性的数据集进行逐项评测。这样可以更加清晰地发现某人工智能产品的优势和劣势。

在一实施例中，基于环境条件集合的评测方法的步骤包括：

步骤201，确定评测对象的环境条件集合；

步骤202，从评测对象在功能评测的评测数据中选择符合环境条件集合的评测数据；

步骤203，基于选择的评测数据，评测所述评测对象在环境条件集合中每种环境条件下的评测结果。

本发明实施例给出语音识别产品、人脸识别产品、OCR识别产品的环境条件集合。

（1）语音识别产品的环境条件集合定义如下：

说话语种：普通话、英语、日语、韩语、中英混杂等；

说话信道：电话信道、手机信道、麦克风信道；

拾音距离：近场（<50厘米）、远场（1米）、远场（3米）、远场（5米）；

特殊年龄：儿童、成人、老人；

声学环境：安静环境、嘈杂环境；

（2）人脸识别产品的环境条件集合定义如下：

人脸朝向：不同人脸朝向（正面、侧面、仰视、俯视）；

脸部遮挡：无遮挡、各种遮挡物类型；

特殊年龄：儿童、成人、老人；

真假人脸：真人、照片、面具；

不同光照：亮光、正常光、暗光；

（3）OCR识别产品的环境条件集合定义如下：

语种：中文、英文、日文、韩文、德文、法文等；

场景：自然场景、文档、手写体；

清晰度：字迹清晰、字迹模糊；

拍摄角度：正面、倾斜。

步骤202中，从评测对象在功能评测的评测数据中选择符合环境条件集合的评测数据，包括：

通过评测对象在功能评测的评测数据的标签与环境条件集合中环境条件的相似度，选择符合环境条件集合的评测数据。

步骤203中，基于选择的评测数据，评测所述评测对象在环境条件集合中每种环境条件下的评测结果，包括：

步骤301，对选择的评测数据进行定量分析，计算所述评测对象的功能指标值；

其中每类人工智能产品的功能指标是预先定义好的，例如语音识别产品用WER（词错率），人脸识别产品用Accuracy（准确率）、Recall（召回率）、F-score（F1值）等。

步骤302，基于所述功能指标值和功能指标阈值，对所述评测对象进行定性分析，所述评测对象在环境条件集合中每种环境条件下的评测结果。例如，对每个环境条件值进行“优、中、差”的定性判断。例如某语音识别产品的定性判断如下：

说话语种：普通话（优）、其他语种（差）；

说话信道：电话信道（差）、手机信道（优）、麦克风信道（优）；

拾音距离：近场（优）、远场（中）；

特殊年龄：儿童（差）、成人（优）、老人（中）；

声学环境：安静环境（优）、嘈杂环境（差）。

二、性能评测

人工智能模型实现人工智能的基础，它是由数据训练而来，就像人的大脑可以不断的学习。随着人工智能的发展，模型参数越来越多，体积也越来越大，这样就导致了模型运行速度慢，占用内存多等一系列问题，因此模型的性能问题就越来越不可忽视。

在一实施例中，人工智能模型和人工智能算法在性能评测的评测项均包括吞吐量评测；

所述吞吐量的评测方法的步骤包括：

根据评测对象的推断数据量的推断时间比值，计算吞吐量，作为评测结果。

其中，吞吐量=推断数据量/推断时间。

吞吐量越大，说明人工智能模型/算法在相同时间内预测的数据越多，性能就越好。

在一实施例中，人工智能模型和人工智能算法在性能评测的评测项均包括资源消耗评测；

所述资源消耗评测的评测方法的步骤包括：

步骤401，根据评测对象的评测数据，计算评测对象的多个性能指标值，性能指标包括CPU占用率、内存占用率、能耗占用率、磁盘读取字节数、磁盘写入字节数、网络发送字节数、网络接收字节数中的其中一种或任意组合；

步骤402，根据多个性能指标值，确定评测结果。

其中，CPU占用率、内存占用率、能耗占用率等越小，说明所占资源越少，性能越好。磁盘读取字节数、磁盘写入字节数、网络发送字节数、网络接收字节数等越小，说明与外界交互越少，性能越好。

在一实施例中，人工智能模型和人工智能算法在性能评测的评测项均包括环境兼容性评测；

所述环境兼容性评测的评测方法的步骤包括：

步骤501，分析评测对象能够正常运行的芯片，获得第一结果；不同芯片包括：CPU、GPU、NPU等；

步骤502，分析评测对象能够正常运行的操作系统，获得第二结果；不同操作系统包括：Windows 32位、Windows 64位、Linux等；

步骤503，根据第一结果和第二结果，确定评测结果。

在一实施例中，人工智能硬件在性能评测的评测项包括框架兼容性评测；

所述框架兼容性评测的评测方法的步骤包括：

步骤601，将预定的深度学习框架在人工智能硬件上进行运行测试；

预定的深度学习框架包括：Tensorflow、Pytorch、PaddlePaddle、MindSpore等。

步骤602，若运行测试结果为正常运行，确定评测结果为能够兼容该预定的深度学习框架。

在一实施例中，人工智能硬件在性能评测的评测项包括算力评测，所述算力评测包括训练性能评测和推断性能评测；

所述训练性能评测的评测方法的步骤包括：

步骤701，构建人工智能任务，所述人工智能任务为语音识别任务、图像识别任务或文本识别任务；

步骤702，使用指定的人工智能基准数据集和人工智能基准模型，在人工智能硬件上进行训练，在达到预设的训练质量目标后，记录训练所用时长（单位：毫秒），作为评测结果；

所述推断性能评测的评测方法的步骤包括：

步骤801，构建人工智能任务，所述人工智能任务为语音识别任务、图像识别任务或文本识别任务；

步骤802，使用指定的人工智能基准测试数据集和人工智能基准模型，在人工智能硬件上进行推断，记录推断时的吞吐量（推断数据量/推断时间），作为评测结果。

在一实施例中，评测对象在安全性评测的评测项包括外部攻击防御能力评测；外部攻击防御能力评测的子评测项包括对抗攻击评测；

对抗攻击评测的评测方法的步骤包括：

步骤901，采用对抗攻击样本生成算法，根据评测对象的评测数据，生成具有对抗能力的对抗样本；

步骤902，采用评测数据和对抗样本混编的数据集进行数据压力测试，获取评测数据推断准确率和对抗样本推断准确率；

步骤903，根据评测数据推断准确率和对抗样本推断准确率，计算平均准确率损失率，作为评测结果。

其中，其中，平均准确率损失率 =（评测数据推断准确率-对抗样本推断准确率）/评测数据推断准确率，该指标值越大，说明人工智能产品防御对抗攻击的能力越差；该指标值越小，说明防御对抗攻击的能力越强。

在一实施例中，外部攻击防御能力评测的子评测项包括伪造攻击评测；

伪造攻击评测的评测方法的步骤包括：

步骤1001，采用评测对象的伪造数据集，对评测对象进行数据压力测试，获取从伪造数据集中识别出的非活体数据，评测对象的伪造数据集包括评测对象对活体数据的伪造的非活体数据，例如，人脸为翻拍电脑、手机、纸质人脸等，人声为语音合成、声音重放、语音模拟等的输出；

步骤1002，根据伪造数据集和识别出的非活体数据，计算平均准确率，作为评测结果。

其中，平均准确率=识别出的非活体数据数量/伪造数据集总量，该指标值越大，说明人工智能产品对伪造攻击的防御力越差；该指标值越小，说明防御伪造攻击的能力越强。

在一实施例中，外部攻击防御能力评测的子评测项包括成员推理攻击评测；成员推理攻击是一种面向人工智能产品（主要是模型）的数据隐私窃取，攻击者以判断数据是否来源于人工智能产品的训练集为目标，本质上是对未知来源的数据进行二分类，给出成员数据或者非成员数据的判定。

成员推理攻击评测的评测方法的步骤包括：

步骤1101，采用评测数据，对评测对象进行数据压力测试，获取评测对象对评测数据的推断结果；

步骤1102，根据所述推断结果，计算置信度得分；

步骤1103，根据推断结果和置信度得分，计算推理攻击指标，作为评测结果。

其中，推理攻击指标=推断成功且置信度得分>阈值，该指标值越大，说明人工智能产品对成员推理攻击的防御力越差；该指标值越小，说明防御成员推理攻击的能力越强。

在一实施例中，外部攻击防御能力评测的子评测项包括反演攻击评测；神经网络模型中面临的反演攻击，包括原始数据保护、敏感数据泄露、模型训练隐私等关键问题。

反演攻击评测的评测方法的步骤包括：

步骤1201，通过评测对象对评测数据检测的推理输出信息进行检测，获得推理输出信息量和数据敏感信息量；

步骤1202，根据推理输出信息量和数据敏感信息量，计算冗余率，作为评测结果。

其中，冗余率=（推理输出信息量-数据敏感信息量）/ 数据敏感信息量，该指标值越小，说明人工智能产品的输出里未包含关键信息，则代表人工智能产品对反演攻击的防御力越强；该指标值越大，说明人工智能产品的输出里包含了关键信息，则代表防御反演攻击的能力越弱。

在一实施例中，评测对象在安全性评测的评测项包括内部可解释性评测；可解释性是指人类能够理解决策原因的程度。可解释性越高，人们就越容易理解为什么要做出某些决定或预测。可解释性指对产品内部机制的理解以及对产品结果的解释。其重要性体现在：建立阶段，辅助开发人员理解模型，进行产品的对比选择，必要时优化调整产品；在投入运行阶段，向业务方解释产品的内部机制，对产品结果进行解释。

内部可解释性评测的评测方法的步骤包括：

步骤1301，基于SHAP方法，对评测对象进行解释性分析，获得多个token；

步骤1302，计算每一个token对评测对象的分类的影响，得到影响分类的正向特征、负向特征和正常特征，作为评测结果。

在一实施例中，评测对象在安全性评测的评测项包括AI偏见评测；

AI偏见评测的评测方法的步骤包括：

步骤1401，采用评测数据，对评测对象进行数据压力测试，获取评测对象对评测数据的识别结果；

步骤1402，计算不同地区的评测数据识别的平均准确率；

步骤1403，根据不同地区的评测数据识别的平均准确率，确定评测对象的倾向检测区域，作为评测结果。

每个区域的评测数据识别的平均准确率=检测正确的评测数据的数量/当前区域的总评测数据的数量。

在一实施例中，评测对象在安全性评测的评测项包括代码安全性评测，代码安全性评测的子评测项包括代码漏洞评测；

代码漏洞评测的评测方法的步骤包括：

步骤1501，对评测对象的代码进行扫描（例如采用CWE规范），记录漏洞信息，所述漏洞信息包括漏洞所在的代码行、漏洞风险级别漏洞详细描述、漏洞规范中的其中一种或任意组合；

步骤1502，根据漏洞信息，生成代码漏洞风险评级，作为评测数据。

例如，若存在高风险漏洞则代码漏洞风险评级为A，若存在中风险漏洞且无高风险漏洞则代码漏洞风险评级为B，若只有低风险漏洞则代码漏洞风险评级为C，未检测到代码漏洞则代码漏洞风险评级为D。指标从A-D，代码漏洞风险程度从高到低。

在一实施例中，代码安全性评测的子评测项包括代码依赖性评测；

代码依赖性评测的评测方法的步骤包括：

对评测对象的代码依赖的代码进行安全性检查，获得检查结果，作为评测结果。

其中，代码的运行通常情况下需要依赖其他包或者代码的实现，通常依赖包是由第三方开发的代码，对代码依赖的安全性检查也是不可忽视的一部分。对代码依赖的安全检查可以更加完善的对代码安全进行检查，增加其安全性。

在一实施例中，代码安全性评测的子评测项包括代码规范性评测；

代码规范性评测的评测方法的步骤包括：

步骤1601，基于SQALE方法的质量模型，对评测对象的代码进行规范性检查，获得不规范代码行数和总代码行数；

步骤1602，根据不规范代码行数和总代码行数，计算技术负载率，作为评测结果。

其中，规范化的代码可以提高代码可读性，统一规范，方便他人维护，能够帮助发现代码缺陷，弥补人工代码评审的疏漏，节省代码评审的时间与成本，有助于提前发现问题，节约时间成本，降低缺陷修复成本。

技术负载率=不规范代码行数/总代码行数×100%。

例如，技术负载率的区间区分中，[0, 5%]是A，(5%, 10%]是B，(10%,20%]是C，(20%, 50%]是D，高于50%是E。

综上所述，本发明实施例提出的方法中，确定人工智能产品的评测对象，所述评测对象包括人工智能模型、人工智能算法和人工智能硬件；确定每个评测对象在每个评测维度的评测项，所述评测维度包括功能评测、性能评测和安全性评测；采集每个评测对象在每个评测维度的评测项的评测数据，按照每个评测项的评测方法，对该评测对象进行评测，获得该评测对象在该评测维度的该评测项的评测结果；其中，评测对象在功能评测的评测项的评测方法为基于环境条件集合的评测方法。与现有技术中主要集中对AI模型的准确率、精度等部分功能性指标的评测，忽视了性能和安全性等其他方面的评测的技术方案相比，能够对人工智能模型、人工智能算法和人工智能硬件实现功能评测、性能评测和安全性评测等多个维度的评测，且评测对象在功能评测的评测项的评测方法为基于环境条件集合的评测方法，从而实现了可以实现评测对象在功能评测的评测项为完备性及正确性评测，可以更加清晰地发现人工智能产品的优势和劣势。

本发明实施例中还提供了一种多维度人工智能产品评测装置，如下面的实施例所述。由于该装置解决问题的原理与多维度人工智能产品评测方法相似，因此该装置的实施可以参见多维度人工智能产品评测方法的实施，重复之处不再赘述。

图3为本发明实施例中多维度人工智能产品评测装置的示意图，包括：

评测对象确定模块301，用于确定人工智能产品的评测对象，所述评测对象包括人工智能模型、人工智能算法和人工智能硬件；

评测项确定模块302，用于确定每个评测对象在每个评测维度的评测项，所述评测维度包括功能评测、性能评测和安全性评测；

评测模块303，用于采集每个评测对象在每个评测维度的评测项的评测数据，按照每个评测项的评测方法，对该评测对象进行评测，获得该评测对象在该评测维度的该评测项的评测结果；

在一实施例中，评测对象在功能评测的评测项为完备性及正确性评测；

基于环境条件集合的评测方法的步骤包括：

确定评测对象的环境条件集合；

从评测对象在功能评测的评测数据中选择符合环境条件集合的评测数据；

基于选择的评测数据，评测所述评测对象在环境条件集合中每种环境条件下的评测结果。

在一实施例中，从评测对象在功能评测的评测数据中选择符合环境条件集合的评测数据，包括：

在一实施例中，基于选择的评测数据，评测所述评测对象在环境条件集合中每种环境条件下的评测结果，包括：

对选择的评测数据进行定量分析，计算所述评测对象的功能指标值；

基于所述功能指标值和功能指标阈值，对所述评测对象进行定性分析，所述评测对象在环境条件集合中每种环境条件下的评测结果。

所述吞吐量的评测方法的步骤包括：

所述资源消耗评测的评测方法的步骤包括：

根据评测对象的评测数据，计算评测对象的多个性能指标值，性能指标包括CPU占用率、内存占用率、能耗占用率、磁盘读取字节数、磁盘写入字节数、网络发送字节数、网络接收字节数中的其中一种或任意组合；

根据多个性能指标值，确定评测结果。

所述环境兼容性评测的评测方法的步骤包括：

分析评测对象能够正常运行的芯片，获得第一结果；

分析评测对象能够正常运行的操作系统，获得第二结果；

根据第一结果和第二结果，确定评测结果。

所述框架兼容性评测的评测方法的步骤包括：

将预定的深度学习框架在人工智能硬件上进行运行测试；

若运行测试结果为正常运行，确定评测结果为能够兼容该预定的深度学习框架。

所述训练性能评测的评测方法的步骤包括：

构建人工智能任务，所述人工智能任务为语音识别任务、图像识别任务或文本识别任务；

使用指定的人工智能基准数据集和人工智能基准模型，在人工智能硬件上进行训练，在达到预设的训练质量目标后，记录训练所用时长，作为评测结果；

所述推断性能评测的评测方法的步骤包括：

使用指定的人工智能基准测试数据集和人工智能基准模型，在人工智能硬件上进行推断，记录推断时的吞吐量，作为评测结果。

对抗攻击评测的评测方法的步骤包括：

采用对抗攻击样本生成算法，根据评测对象的评测数据，生成具有对抗能力的对抗样本；

采用评测数据和对抗样本混编的数据集进行数据压力测试，获取评测数据推断准确率和对抗样本推断准确率；

根据评测数据推断准确率和对抗样本推断准确率，计算平均准确率损失率，作为评测结果。

伪造攻击评测的评测方法的步骤包括：

采用评测对象的伪造数据集，对评测对象进行数据压力测试，获取从伪造数据集中识别出的非活体数据，评测对象的伪造数据集包括评测对象对活体数据的伪造的非活体数据；

根据伪造数据集和识别出的非活体数据，计算平均准确率，作为评测结果。

在一实施例中，外部攻击防御能力评测的子评测项包括成员推理攻击评测；

成员推理攻击评测的评测方法的步骤包括：

采用评测数据，对评测对象进行数据压力测试，获取评测对象对评测数据的推断结果；

根据所述推断结果，计算置信度得分；

根据推断结果和置信度得分，计算推理攻击指标，作为评测结果。

在一实施例中，外部攻击防御能力评测的子评测项包括反演攻击评测；

反演攻击评测的评测方法的步骤包括：

通过评测对象对评测数据检测的推理输出信息进行检测，获得推理输出信息量和数据敏感信息量；

根据推理输出信息量和数据敏感信息量，计算冗余率，作为评测结果。

在一实施例中，评测对象在安全性评测的评测项包括内部可解释性评测；

内部可解释性评测的评测方法的步骤包括：

基于SHAP方法，对评测对象进行解释性分析，获得多个token；

计算每一个token对评测对象的分类的影响，得到影响分类的正向特征、负向特征和正常特征，作为评测结果。

代码漏洞评测的评测方法的步骤包括：

对评测对象的代码进行扫描，记录漏洞信息，所述漏洞信息包括漏洞所在的代码行、漏洞风险级别漏洞详细描述、漏洞规范中的其中一种或任意组合；

根据漏洞信息，生成代码漏洞风险评级，作为评测数据。

代码依赖性评测的评测方法的步骤包括：

代码规范性评测的评测方法的步骤包括：

基于SQALE方法的质量模型，对评测对象的代码进行规范性检查，获得不规范代码行数和总代码行数；

根据不规范代码行数和总代码行数，计算技术负载率，作为评测结果。

在一实施例中，参见图4，所述装置还包括测试报告生成模块401，用于：

根据评测对象在每个评测维度的每个评测项的评测结果，生成评测报告，所述评测报告用于指导评测对象调优。

综上所述，本发明实施例提出的装置中，确定人工智能产品的评测对象，所述评测对象包括人工智能模型、人工智能算法和人工智能硬件；确定每个评测对象在每个评测维度的评测项，所述评测维度包括功能评测、性能评测和安全性评测；采集每个评测对象在每个评测维度的评测项的评测数据，按照每个评测项的评测方法，对该评测对象进行评测，获得该评测对象在该评测维度的该评测项的评测结果；其中，评测对象在功能评测的评测项的评测方法为基于环境条件集合的评测方法。与现有技术中主要集中对AI模型的准确率、精度等部分功能性指标的评测，忽视了性能和安全性等其他方面的评测的技术方案相比，能够对人工智能模型、人工智能算法和人工智能硬件实现功能评测、性能评测和安全性评测等多个维度的评测，且评测对象在功能评测的评测项的评测方法为基于环境条件集合的评测方法，从而实现了可以实现评测对象在功能评测的评测项为完备性及正确性评测，可以更加清晰地发现人工智能产品的优势和劣势。

本发明实施例还提供一种计算机设备，图5为本发明实施例中计算机设备的示意图，所述计算机设备500包括存储器510、处理器520及存储在存储器510上并可在处理器520上运行的计算机程序530，所述处理器520执行所述计算机程序530时实现上述多维度人工智能产品评测方法。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种多维度人工智能产品评测方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，评测对象在功能评测的评测项为完备性及正确性评测；

基于环境条件集合的评测方法的步骤包括：

确定评测对象的环境条件集合；

3.如权利要求2所述的方法，其特征在于，从评测对象在功能评测的评测数据中选择符合环境条件集合的评测数据，包括：

4.如权利要求2所述的方法，其特征在于，基于选择的评测数据，评测所述评测对象在环境条件集合中每种环境条件下的评测结果，包括：

5.如权利要求1所述的方法，其特征在于，人工智能模型和人工智能算法在性能评测的评测项均包括吞吐量评测；

所述吞吐量的评测方法的步骤包括：

6.如权利要求1所述的方法，其特征在于，人工智能模型和人工智能算法在性能评测的评测项均包括资源消耗评测；

所述资源消耗评测的评测方法的步骤包括：

根据多个性能指标值，确定评测结果。

7.如权利要求1所述的方法，其特征在于，人工智能模型和人工智能算法在性能评测的评测项均包括环境兼容性评测；

所述环境兼容性评测的评测方法的步骤包括：

分析评测对象能够正常运行的芯片，获得第一结果；

分析评测对象能够正常运行的操作系统，获得第二结果；

根据第一结果和第二结果，确定评测结果。

8.如权利要求1所述的方法，其特征在于，人工智能硬件在性能评测的评测项包括框架兼容性评测；

所述框架兼容性评测的评测方法的步骤包括：

将预定的深度学习框架在人工智能硬件上进行运行测试；

9.如权利要求1所述的方法，其特征在于，人工智能硬件在性能评测的评测项包括算力评测，所述算力评测包括训练性能评测和推断性能评测；

所述训练性能评测的评测方法的步骤包括：

所述推断性能评测的评测方法的步骤包括：

10.如权利要求1所述的方法，其特征在于，评测对象在安全性评测的评测项包括外部攻击防御能力评测；外部攻击防御能力评测的子评测项包括对抗攻击评测；

对抗攻击评测的评测方法的步骤包括：

11.如权利要求10所述的方法，其特征在于，外部攻击防御能力评测的子评测项包括伪造攻击评测；

伪造攻击评测的评测方法的步骤包括：

12.如权利要求10所述的方法，其特征在于，外部攻击防御能力评测的子评测项包括成员推理攻击评测；

成员推理攻击评测的评测方法的步骤包括：

根据所述推断结果，计算置信度得分；

13.如权利要求10所述的方法，其特征在于，外部攻击防御能力评测的子评测项包括反演攻击评测；

反演攻击评测的评测方法的步骤包括：

14.如权利要求1所述的方法，其特征在于，评测对象在安全性评测的评测项包括内部可解释性评测；

内部可解释性评测的评测方法的步骤包括：

基于SHAP方法，对评测对象进行解释性分析，获得多个token；

15.如权利要求1所述的方法，其特征在于，评测对象在安全性评测的评测项包括AI偏见评测；

AI偏见评测的评测方法的步骤包括：

采用评测数据，对评测对象进行数据压力测试，获取评测对象对评测数据的识别结果；

计算不同地区的评测数据识别的平均准确率；

根据不同地区的评测数据识别的平均准确率，确定评测对象的倾向检测区域，作为评测结果。

16.如权利要求1所述的方法，其特征在于，评测对象在安全性评测的评测项包括代码安全性评测，代码安全性评测的子评测项包括代码漏洞评测；

代码漏洞评测的评测方法的步骤包括：

根据漏洞信息，生成代码漏洞风险评级，作为评测数据。

17.如权利要求16所述的方法，其特征在于，代码安全性评测的子评测项包括代码依赖性评测；

代码依赖性评测的评测方法的步骤包括：

18.如权利要求16所述的方法，其特征在于，代码安全性评测的子评测项包括代码规范性评测；

代码规范性评测的评测方法的步骤包括：

19.如权利要求1所述的方法，其特征在于，还包括：

20.一种多维度人工智能产品评测装置，其特征在于，包括：

21.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至19任一所述方法。

22.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1至19任一所述方法。

23.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序，所述计算机程序被处理器执行时实现权利要求1至19任一所述方法。