CN112905494A

CN112905494A - 一种融合多维信息的人工智能测评方法及系统

Info

Publication number: CN112905494A
Application number: CN202110492558.6A
Authority: CN
Inventors: 邱晓慧; 杨波; 孙璞; 王玲; 渠韶光; 张炼
Original assignee: Beijing Unionpay Card Technology Co ltd
Current assignee: Beijing Unionpay Card Technology Co ltd
Priority date: 2021-05-07
Filing date: 2021-05-07
Publication date: 2021-06-04
Anticipated expiration: 2041-05-07
Also published as: CN112905494B

Abstract

本发明提供一种融合多维信息的人工智能测评方法及系统，根据待测评人工智能产品所属领域生成测评项目列表，调取与测评项目对应的原始样本数据；依据测评项目列表和原始样本数据，调用对应算法依次生成安全性、可解释性和精准性的测评内容，最后测评性能指标，将待测评人工智能产品部署于本地服务器后，利用上述所准备内容对人工智能产品进行安全性、可解释性、精准性和性能测评，同时记录各测评结果并生成报告。本方案的优点是能够融合多维信息多角度测评人工智能产品以保障其安全合规落地应用；能够自适应的根据人工智能产品特点选取测评项目，方便灵活；以测评项目条目、指标量化等客观方式进行测评，操作直观便捷，减少测评员的主观判断。

Description

一种融合多维信息的人工智能测评方法及系统

技术领域

本发明涉及人工智能测评领域，尤其涉及一种融合多维信息的人工智能测评方法及系统。

背景技术

近年来，随着数据资源丰富、计算能力提升和人工智能新算法涌现，人工智能应用与产品不断推陈出新，在国内外各领域的推广皆取得了较大进展。生物识别、智能投顾、智能风控、智能决策等应用不断推出，越来越多的人工智能产品落地各行各业，使得服务更加便捷和高效，为人们的生活引入前所未有的科技感与便利舒爽的新鲜体验。但在技术转化和应用场景落地过程中，人工智能技术的不确定性和应用的广泛性带来了一些恶意攻击、法律伦理、社会公共风险等问题，影响国家政治、经济和社会安全。

世界各国家已纷纷围绕人工智能出台相关规划和政策，加快人工智能核心技术、安全约束、法律伦理等方面的布局。同时，随着人工智能在多个行业的广泛应用，在学术界和工业界，人工智能的安全性、可解释性及模型效果近年来也成为研究的热点领域。安全是人工智能广泛应用的基石，只有安全得到保障，其在各领域才能更加快速、有效的推广与创新应用。

虽然目前人工智能安全与可解释性成为越来越重要的研究课题，但完整的人工智能测评方法及系统并不成熟。在所有人工智能应用落地的领域中，金融领域是要领域之一，也是对人工智能安全性和可解释性要求较高的行业，同时人工智能技术是助力金融机构实现运营模式转型的重要工具。金融行业开始编制人工智能安全相关标准但目前尚无完整的测评方法和系统。纵观目前已有人工智能测评，它们存在以下不足之处：

第一，人工智能测评处于科学研究阶段，无完善的人工智能安全和可解释性测评方法，距离实际测评应用仍存在差距。

第二，人工智能测评方法单一。现有人工智能评测方法多为深入某特定方向研究，对人工智能进行全方位测评的方法较少。

第三，能够对人工智能安全性和可解释性的测评系统较少，现有系统多为支撑研究验证实验结果而设计，真正落地于人工智能测评的系统几乎没有。

所以，如何提供一种能够全方位测评人工智能产品的方法成为亟待解决的问题。

发明内容

本发明提供一种融合多维信息的人工智能测评方法及系统，用以解决现有技术中，人工智能测评方法单一，对人工智能的安全性和可解释性测评系统少的问题。

为了实现上述目的，本发明技术方案提供了一种融合多维信息的人工智能测评方法，包括：根据待测评人工智能产品所属领域生成测评项目列表，调取与测评项目对应的原始样本数据。在安全性测评准备阶段，调取相应测评算法和与之对应的原始样本数据后，运行鲁棒性和对抗攻击性的相关算法，生成对应的测评样本并对其进行存储；检查安全性测评所需的测评样本是否均生成完毕，若是则进行可解释性测评准备。可解释性测评包括基于模型的解释性和模型无关可解释性两种测评方式，若待测评人工智能产品的可解释性较强则基于模型本身的特征、参数对模型进行可解释性测评；若模型本身可解释性差则通过辅助算法、样本进行可解释性测评。根据待测评人工智能产品可解释性的强弱选择不同的测评算法和与算法对应的原始样本数据进行测评后，检查可解释性测评所需的测评内容是否均生成完毕，若是则进行精准性测评准备。根据所述待测评人工智能产品的应用场景自适应评估其算法的精准性，包括，将用于精准性测评的原始样本数据分为两份，分别用于训练阶段的精准性测评和实际预测阶段的精准性测评并生成相应测评样本，检查精准性测评所需的测评样本是否均生成完毕，若是则进行性能测评准备。根据所述测评项目列表中的性能指标，配置与性能指标相同的服务器，并部署所述待测评人工智能产品，依据上述所准备内容对所述待测评人工智能产品进行安全性测评、可解释性测评、精准性测评和性能测评；其中，在安全性的抗攻击性测评中，要求|测试攻击的最大成功率-最低容忍成功率偏差|≤0.1。记录安全性测评结果、可解释性测评结果、精准性测评结果和性能测评结果并生成测评报告。

作为上述技术方案的优选，较佳的，在所述鲁棒性评价中，根据所述原始样本数据的物理变化和所述样本数据的外观变化获取鲁棒性测评结果，在获取物理变化过程中，在测试数据集中加入至多10%的所述测评样本参与本次测试，鲁棒性测评结果为|攻击后算法精准性-原算法精准性|≤0.07。

作为上述技术方案的优选，较佳的，在所述抗攻击性评价中，利用基于抗攻击算法生成的对抗样本进行攻击测试，要求|测试攻击的最大成功率-最低容忍成功率偏差|≤0.1，最大成功率为利用生成的对抗样本对所述测评样本进行攻击时，攻击成功使待测评人工智能产品发生误判的概率。

作为上述技术方案的优选，较佳的，在评估所述精准性的过程中，对于二分类算法，基线要求为AUC≥0.75；对于多分类算法，微平均F1或宏平均F1≥0.20；对于回归算法，RSD≤0.1。

作为上述技术方案的优选，较佳的，所述在测评所述精准性的过程中，若所述二分类算法、多分类算法、回归算法中有准确性的声明，则将精准性测评结果与声明进行比较。

作为上述技术方案的优选，较佳的，对所述性能指标的测评标准：单条预测时间≤10min，批量预测1000条时间≤1h且TPS≥20。

作为上述技术方案的优选，较佳的，在评估所述性能指标的过程中，若所述待测评人工智能产品有性能指标声明，则将评估的性能指标结果与性能指标声明进行比较。

本发明还提供一种融合多维信息的人工智能测评系统，包括服务器集群、存储器、控制端。控制端用于接收外部交互指令和反馈待测评人工智能产品的测评结果，所述交互指令包括选择测评项目、向所述服务器集群发送调用指令；所述控制端包括测评管理器，用于向所述服务器集群发送指令调取适用于所述待测评人工智能产品的测评模块，接收所述测评模块发送的数据。服务器集群用于从存储端获取原始样本数据，对所述待测评人工智能产品进行测评，包括：安全测评模块、可解释性测评模块、精准性模块和性能测评模块。安全测评模块用于，从所述存储端调取相应测评算法和与之对应的原始样本数据后，进行鲁棒性和对抗攻击性测评并生成相应测评样本。可解释性测评模块用于，根据所述待测评人工智能产品可解释性的强弱从所述存储端调取不同的测评算法和与算法对应的原始样本数据进行测评并生成相应测评内容。精准性测评模块用于，将用于精准性测评的原始样本数据分为两份，分别用于训练阶段的精准性测评和实际预测阶段的精准性测评并生成相应测评样本。性能测评模块用于，用于根据所述待测评人工智能产品的应用场景自适应评估其算法的精准性，将用于精准性测评的原始样本数据分为两份，分别用于训练阶段的精准性测评和实际预测阶段的精准性测评并生成相应测评样本。存储器用于存储所述安全测评模块、所述可解释性测评模块、所述精准性测评模块、所述性能测评模块分别生成的测评样本以及测评过程中的记录、日志和结果文件等。

作为上述技术方案的优选，较佳的，安全测评模块、可解释性测评模块、精准性测评模块、性能测评模块，均在进行下一测评准备之前，检查当前所需的测评内容是否均生成完毕。

作为上述技术方案的优选，较佳的，服务器集群还包括，测评报告生成模块，用于记录安全性测评结果、可解释性测评结果、精准性测评结果和性能测评结果并生成测评报告。

本发明技术方案提供了一种融合多维信息的人工智能测评方法及系统，根据待测评人工智能产品所属领域生成测评项目列表，调取与测评项目对应的原始样本数据；当安全性测评样本准备完毕后进行可解释性测评样本的准备。可解释性测评内容准备完毕后进行精准性测评样本的准备，最后根据性能指标，配置与性能指标相同的本地服务器，并部署所述待测评人工智能产品进行测评，记录各测评结果并生成报告。

本发明的优点是：

（1）提出一种融合鲁棒性、安全性、可解释性、精准性和性能等多维度信息的人工智能测评方法，可以多角度全方位评价人工智能，有效保障人工智能的落地应用。

（2）不仅通过多种变换生成多维各异的样本来测评人工智能的鲁棒安全性，还从多种攻击角度出发，测评人工智能抵御各种攻击的能力，深入检测人工智能的安全，既保障safety（性能的安全也称为鲁棒性）也测评security（抗攻击性）。

（3）自适应性强，虽然市面上人工智能产品千差万别，本测评方法可自适应性的根据待测评产品特色生成对应测评方法。同种测评项可根据算法不同特色提供不同的测评手段，在保障测评公平性的同时丰富测评形式。

（4）形成完整的人工智能测评模式，友好的用户界面和统一的测评项，既使得测评操作直观与便捷，又保障测评的公平公正，减少测评员的主观判断。此外，本测评系统是现有较为完善的一套全面测评人工智能的系统。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供一种融合多维信息的人工智能测评方法的算法流程示意图一。

图2为本发明实施例提供的一种融合多维信息的人工智能测评方法的算法流程示意图二。

图3为本发明实施例提供的一种融合多维信息的人工智能测评系统的结构示意图。

图4为本发明实施例提供的一种融合多维信息的人工智能测评方法的实际流程意图。

图5为本发明实施例提供的一种融合多维信息的人工智能测评方法的架构示意图。

图6为本发明实施例提供的一种融合多维信息的人工智能测评方法的系统界面图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

现对本发明技术方案进行初步说明，如图1所示，图1为本发明实施例提供的一种融合多维信息的人工智能测评方法的流程示意图。

步骤101、根据待测评目标人工智能产品特点生成所有测评项目列表。

其中，根据待测评人工智能产品的特点、算法类型、业务场景选择安全性、可解释性、精准性和性能测评项目所用测评方法。

步骤102、调取与测评项目对应的原始样本数据，生成各测评项目所需的测评内容并部署待测评人工智能产品。

在安全性测评准备中，调取相应测评算法和与之对应的原始样本数据后，进行鲁棒性和抗攻击性测评，存储生成的测评样本。检查安全性测评所需的测评样本是否均生成完毕，若是则进行可解释性测评准备。根据待测评人工智能产品可解释性的强弱选择不同的测评算法和与算法对应的原始样本数据进行计算后，检查可解释性测评所需的测评内容是否均生成完毕，若是则进行精准性测评准备。根据待测评人工智能产品的应用场景自适应评估其算法的精准性，将用于精准性测评的原始样本数据分为两份，分别用于训练阶段的精准性测评和实际预测阶段的精准性测评并生成相应测评样本，检查精准性测评所需的测评样本是否均生成完毕，若是则进行性能测评准备。根据测评项目列表中的性能指标，配置与性能指标相同的服务器，并部署待测评人工智能产品，部署完成后对所述待测评人工智能产品进行安全性测评、可解释性测评、精准性测评和性能测评。

步骤103、根据上述准备内容，测评人工智能产品。

步骤104、记录安全性测评结果、可解释性测评结果、精准性测评结果和性能测评结果并生成测评报告。

现对本发明技术方案进行详细说明，如图2所示的流程图：

步骤201、分析待测评的人工智能产品，生成测评列表。

分析作业可由人工完成，也可以通过深度学习的方式通过相关软件完成。具体的，测评列表中详细测评项目通过根据以下方面得到：

根据待测评人工智能产品特点生成鲁棒性与抗攻击性的安全测评项目，依据待测评人工智能产品所用算法类型选择相应的可解释性测评项目，分析待测评人工智能产品所适用业务场景和其所用算法类型选用恰当的精准性和性能测评项目。

步骤202、调起本次测评所需的测评项目模块。

步骤203、启动与测评项目模块对应的具体算法。

步骤204、准备安全性测评项目中采用的具体算法。

具体的：在鲁棒性测评中，启动尺寸变换、角度变换、位置变换等样本数据的物理变换算法，人工智能需有效抵御尺寸、角度、位置等变化，适应于不同场景。因此，本发明能够根据原始样本数据生成上述多种变化的样本，之后利用新生成的样本测评人工智能，评估人工智能的鲁棒性与自适应性。本发明能够实现随机裁剪、中心裁剪、随机旋转、水平旋转等功能，基本可覆盖实际场景中样本物理情况的变化。亮度变换、色度变换、对比度变换、饱和度变换等样本数据外观变换的算法。实际应用中，人工智能的性能常常会受到光照、颜色等影响，在测试中，需尽量模拟现实中的多种影响因素。本发明能根据测评需求自动调整样本亮度、色度、对比度、饱和度等，使测评能够覆盖更多与更全的样本。通过生成的各种样本信息，测评人工智能在真实应用中的性能，保障应用的安全与稳定。

在抗攻击性测评中，启动FGSM、DeelFool、CW、JSMA等白盒对抗样本攻击算法和LocalSearchAttack黑盒对抗样本攻击算法。LocalSearchAttack改进了单像素攻击算法，利用模型反馈信息选择扰动点，并随机选择对分类结果影响大的点的周围的点，进一步进行选择。

步骤205、读取算法对应的原始样本数据。

原始样本数据是从存储器读取的，不同算法对应不同的原始样本数据。

步骤206、生成测评样本并存储。

各算法分别对与之对应的原始样本进行处理，生成各测评样本后，将测评样本写入存储端，以用于后续测评。

步骤207、检查安全性测评所需的测评样本是否均生成完毕。若是执行步骤208，否则执行步骤206。

步骤208、根据待测评人工智能产品可解释性的强弱选择不同测评算法。执行步骤209或步骤210。

可解释性测评包括基于模型的解释性和模型无关的可解释性两种测评方式。其中，模型或者为人工智能算法，不同算法之间的可解释性存在差距，比如树模型可解释性强而深度学习可解释性差。基于模型的人工智能可解释性测评从特征定义、分布、衍射以及选择等方面对特征进行可解释性测评，进而衡量模型可解释性，同时还可从模型参数定义、选择等方面对模型进行可解释性测评，执行步骤209。若模型本身可解释性较差，通过辅助算法、样本进行可解释性测评，执行步骤210。

基于待测评人工智能产品的模型可解释性测评（不同算法的可解释性存在差距）：若模型本身可解释强，如采用回归算法、树算法等，则通过其特征、参数和算法本身进行可解释性测评；模型无关的可解释性：若待测评人工智能产品的模型本身可解释性差，如深度学习，则只通过替代算法的解释性和样本的解释性来对人工智能产品进行可解释性测评。

对于基于模型的可解释性：

步骤209、基于模型的可解释性测评。

包括：

步骤2091、调用相应测评算法（多为评估类算法），根据算法需求准备本次可解释性测评的原始数据样本。

在通过特征定义、特征分布、特征选择和特征衍生等特征角度来测评人工智能产品的可解释性时，同时调用待测评人工智能产品相关的文档记录，同时需对目标产品实现过程与细节进行查看，记录相关信息，并将结果进行存储。同时还可以从模型参数定义、选择等方面对模型进行可解释性测评。若模型本身所用人工智能算法具有可解释性，则对此算法直接进行解释性测评。

步骤2092、生成测评内容并存储。

根据待测评人工智能产品所用算法的特点生成对应的基于模型可解释的测评内容与步骤，并将此内容写入存储端进行记录。

步骤210、模型无关的可解释性测评。

对于模型无关的可解释性测评：

模型无关可解释性测评主要包含利用可解释性强的替代算法和利用样本特性对模型的可解释性进行测评，评估其是否满足应用要求。

替代算法包括：验证待测评产品是否可通过部分依赖图、个体条件期望、局部代理模型、全局代理模型等方面对人工智能的可解释性进行说明，进而评估人工智能算法的可解释性，降低模型的黑盒不可见性。

基于样本的可解释性通过评估模型训练过程中的代表性和非代表性样本、有影响力的样本和反事实解释等样本方面衡量人工智能算法模型的可解释性，具体的：

步骤2101、根据所测评产品需求准备本次可解释性测评所需内容。

调用相应的样本利用相应算法从中选择待测评人工智能产品所用的代表性样本和非代表性样本，以此来表征其可解释性。在人工智能产品的可解释性弱的情况下，还可以通过在样本中选择有影响力的样本来来解释人工智能产品所用算法的原理；还可以根据存储端样本特点生成反事实样本，以此来验证待测评人工智能产品的可解释性。

步骤2102、生成测评内容并存储。

根据待测评产品特点，生成模型无关可解释性的测评内容与步骤，并将其写入存储端，以用于后续测评。

步骤211、检查可解释性测评所需的测评内容是否均生成完毕。若是执行步骤212，否则执行步骤209或步骤210。

步骤212、调取本次精准性测评项目中采用的具体算法及相应原始数据，生成测评样本数据。

精准性测评训练阶段的指标和泛化性指标（实际应用预测阶段与训练阶段的指标差距）。在步骤212中将样本数据分为两份，一份用于训练阶段的指标测评，一份用于实际预测阶段的指标测评。

步骤213、检查精准性测评所需的测评样本是否均生成完毕。若是执行步骤214，否则执行步骤212。

步骤214、配置本地服务器并部署待测评人工智能产品并运行此产品。

配置与测评列表中性能指完全相同的本地服务器，检查性能测评项是否准备完毕，检查步骤204-步骤213中全部测评项目是否已均准备完整，若是则运行待测评人工智能产品，否则重复步骤204-步骤213。

步骤215、测评待测评人工智能产品，记录存储测评结果。

依次对测评人工智能产品实施安全性、可解释性、精准性和性能的测评，从存储端调用上述提及的相应的测评样本（步骤206-步骤213生成的）和样例，利用其测评目标待测评产品，记录测评结果，并将测评结果存储至存储端。

测评指标如下：

对于对抗攻击性等安全性测评：基于FGSM、DeepFool、C/W、JSMA等算法生成对抗样本进行攻击测试：

|测试攻击的最大成功率-设计的最低容忍成功率偏差|≤0.1；

其中测试攻击的最大成功率为利用生成的对抗样本进行攻击时，攻击成功使人工智能算法发生误判的概率；设计的最低容忍成功率为人工智能算法出厂测试或厂家在出厂时标明的抗攻击性。在本测评系统中，这两者差小于10%才可满足安全性要求。

对于物理对抗样本攻击等安全性测评：应在人工智能金融应用算法性能最佳的条件下，当测试数据集中加入10%的系统生成的物理对抗样本进行攻击时，在要求较严格的场景下：

|攻击后算法精准性-原算法精准性|≤ 0.05；

在要求较低的场景下：

|攻击后算法精准性-原算法精准性|≤ 0.07。

在精准性测评方面：根据算法特性可分为二分类、多分类和回归算法，每种类型算法皆有对的指标要求。对于二分类的基线要求为AUC≥0.75为合格；对多分类算法要满足微平均F1值或宏平均F1值≥0.20，用以衡量多分类算法的精准度，若微平均F1值或宏平均F1值小于0.20，则认为多分类算法精准度低；对回归算法的要求为RSD≤0.1为合格。若待测评算法有相关准确性的声明，则依旧对应声明进行测评，比对测评结果与声明结果的一致性。RSD（relative standard deviation，相对标准偏差）；AUC（area under curve）包括ROC曲线下面积ROC-AUC和PR曲线下面积PR-AUC。

对于性能的测评：基线要求为单条预测时间≤10min ，批量预测1000条预测时间≤1h，TPS≥20，TPS为系统吞吐量。同精准性测评相同，若待测评算法有较高的声明要求，则依据其声明进行测评。

步骤216、生成测评报告。

依次从存储端调取安全性、可解释性、精准性和性能的测评结果、日志、相关记录，全面综合分析目标人工智能产品，生成测评结果。

本发明提供了一种融合多维信息的人工智能测评系统，其结构如图3所示，架构如图5所示：包括服务器集群1、存储器2、控制端3、本地服务器4。其中，服务器集群1是由五台物理机组成的集群，每台物理机优选为为16核服务器，CPU主频是2.3GHz，内存是32G，操作系统为Linux。本地服务器4优选CPU主频2.3GHz，内存是32G，操作系统为Linux。用户机优选CPU主频3.4GHz，内存是8G，操作系统为Microsoft Windows 10。

控制端3具体可以为用户机，用户机上交互界面用于接收外部交互指令和待测评人工智能产品的测评结果。交互指令包括，服务器集群1下发的测评项目、向所述服务器集群1发送调用指令。用户机具有测评管理器，用于向服务器集群1发送指令调取适用于待测测评人工智能产品的测评模块，接收测评模块发送的数据。

服务器集群1用于，从存储端获取原始样本数据，并生成各测评项目所需的测评样本并将各测评发送至存储器2存储。服务器集群1包括：安全测评模块11、可解释性测评模块12、精准性测评模块13和性能测评模块14。进一步的，服务器集群1从存储器2获取原始样本数据后，经各测评模块处理后生成可供测评使用的各测评样本，再通过控制端3的测评管理器将测评样本与测评案例输送至已部署在本地服务器4的待测评人工智能产品。其中，测评案例为过去一段实际中利用测评样本的如何进行测试的方法。

安全测评模块11用于，从存储器2调取相应测评算法和与之对应的原始样本数据后，进行鲁棒性和抗攻击性评价并生成相应测评样本。安全性测评包含样本数据物理变化测评、样本数据外观变化测评、对抗样本攻击测评、窃取攻击测评等。当安全性测评模块11检查当前测评样本均生成完毕时，服务器集群1调起可解释性测评模块12。其中，鲁棒安全性包括进行物理变换和外观变换测评，物理变换包括：尺寸、角度、位置变换，外观变换包括：亮度、对比度、色度变换。抗攻击性包括：对抗样本攻击和窃取攻击，对抗样本攻击包括：白盒算法：FGSM、DeelFool、CW、JSMA；黑盒算法：LocalSearchAttack；窃取攻击包括：模型、数据、训练窃取攻击算法。

可解释性测评模块12用于，根据所述待测评人工智能产品可解释性的强弱从所述存储器2调取不同的测评算法和与算法对应的原始样本数据进行测评并生成相应测评样本。可解释性测评模块12包括基于模型和模型无关两大类测评模块，分别用于对可解释性强和可解释性弱的人工智能产品进行测评。通常认为逻辑回归、决策树等算法的可解释性强，深度学习算法可解释性差。基于模型的可解释性测评从特征和参数两个方向进行测评，特征方向包括特征的定义、分布和选择，参数方向包括参数的选择和定义。模型无关的可解释性测评从替代算法和样本两个方向进行测评，替代算法包括部分依赖图、个体条件期望、全局代理模型三个方面，样本方向包括代表性、影响力和反事实样本三个方面。可解释性测评模块12将测评结果、测评日志等信息存储到存储器2。

当可解释性测评模块检查当前测评所需内容均生成完毕，服务器集群1调起精准性测评模块13。可解释性测评模块12与控制端3和存储器2进行不同的信息交互进行可解释性测评。

精准性测评模块13用于，将用于精准性测评的原始样本数据分为两份，分别用于训练阶段的精准性测评和实际预测阶段的精准性测评并生成相应测评样本。进一步参考图4，准确值为人工智能产品在训练阶段时候的精准性指标值，对比值为人工智能产品上线应用时的精准性，精准性体现在人工智能产品上线时的精准性指标值与训练阶段的指标值是否保持一致。精准性和对比值测评包含常见算法的测评指标如AUC、RSD、KS等。当精准性测评模块检查当前测评样本均生成完毕，服务器集群1调起性能测评模块14。

其中，如若是二分类算法则通过准确值AUC、KS、RSD等指标来衡量其对场景的满足程度。如若是对回归算法则通过RSD等指标来衡量其精准性。同时，通过对比训练测试阶段的精准性与实际预测应用的精准性差距来评估人工智能的泛化性。

性能测评模块14用于，用于所述待测评人工智能产品的应用场景自适应评估其算法的精准性，将用于精准性测评的原始样本数据分为两份，分别用于训练阶段的精准性测评和实际预测阶段的精准性测评并生成相应测评样本。性能测评模块14根据待测评人工智能产品在本地服务器4上运行的结果进行实时记录与存储。当安全性测评模块检查当前测评样本均生成完毕，服务器集群1开始准备可解释性测评。性能测评从建模过程和建模应用两个方面来进行测评，其中，建模过程测评以获取的训练时长为测评结果，建模应用性能测评从TPS、单条预测时间、批量预测时间三个方面进行性能测评。

本地服务器4用于，部署待测评人工智能产品，根据从用户机发送的的测评项目对待测评人工智能产品进行测评。其中，测评项目是由服务器集群1发送至用户机的。

服务器集群1还包括，测评报告生成模块，用于记录安全性测评结果、可解释性测评结果、精准性测评结果和性能测评结果并生成测评报告。

所述存储器2用于，存储安全测评模块11、可解释性测评模块12、精准性测评模块13、性能测评模块14分别生成的测评样本以及人工输入的测评记录。

其中，安全测评模块11、可解释性测评模块12、精准性测评模块13、性能测评模块14，均在进行下一测评准备之前，检查当前测评样本/内容是否均生成完毕。

进一步的，控制端3中交互界面可供测评员选择对应的测评项目同时负责与服务器集群1进行交互。测评管理器负责与目标待测产品进行交互，将测评方法传输到待测评人工智能产品并接受其反馈结果。存储器2用于存储原始样本数据、服务器集群1生成的测评样本和测评过程中的相关记录、结果、日志等文件。

进一步的，如图4所示，结合图2所示的流程和图3所示的结构示意图对本发明具体实施场景进行说明：通过人工或机器分析待测评的人工智能产品并生成测评列表。控制端（用户机）选择测评项目并向服务器集群发送命令使其执行测评准备（参考图2中步骤203-步骤211）。当服务器集群已准备好所有测评项目后，控制端启动待测评的人工智能产品并从存储器调用测评样本进行测评，测评员根据测评结果和测评过程的相关记录对当前人工智能产品进行评估。

本发明技术方案提供了一种融合多维信息的人工智能测评方法及系统，所述方法包括：人工智能测评系统根据待测评人工智能产品所在领域生成对应的样本，利用此样本对待测人工智能产品进行安全性测评。当安全性测评满足要求时，再对人工智能算法的可解释性进行测评。最后，根据人工智能应用的具体业务场景，对其精准性和性能进行测评，验证其指标是否满足要求。本发明从安全性、可解释性和性能等多角度全方位测评人工智能，提升了人工智能测评准确性与全面性，有效保障了人工智能应用安全。同时，本发明可根据待测评产品特色自适应提供特定的测评，在保障产品安全的同时突出产品特特点。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种融合多维信息的人工智能测评方法，其特征在于，所述方法包括：

根据待测评人工智能产品所属领域生成测评项目列表，调取与测评项目对应的原始样本数据；

在安全性测评准备阶段，调取相应测评算法和与之对应的原始样本数据后，运行鲁棒性和对抗攻击性的相关算法，生成对应测评样本并对其进行存储；

检查安全性测评所需的测评样本是否均生成完毕，若是则进行可解释性测评准备；可解释性测评包括基于模型的解释性和模型无关可解释性两种测评方式，若待测评人工智能产品的可解释性较强则基于模型本身的特征、参数对模型进行可解释性测评；若模型本身可解释性差则通过辅助算法、样本对人工智能产品进行可解释性测评；

根据所述待测评人工智能产品可解释性的强弱选择不同的测评算法和与算法对应的原始样本数据进行计算后，检查可解释性测评所需的测评内容是否均生成完毕，若是则进行精准性测评准备；

根据所述待测评人工智能产品的应用场景自适应评估其算法的精准性，包括，将用于精准性测评的原始样本数据分为两份，分别用于训练阶段的精准性测评和实际预测阶段的精准性测评并生成相应测评内容，检查精准性测评所需的测评内容是否均生成完毕，若是则进行性能测评准备；

根据所述测评项目列表中的性能指标，配置与性能指标相同的本地服务器，并部署所述待测评人工智能产品；依据上述所准备内容对人工智能产品进行安全性测评、可解释性测评、精准性测评和性能测评；其中，在安全性的抗攻击性测评中，要求|测试攻击的最大成功率-最低容忍成功率偏差|≤0.1；

记录安全性测评结果、可解释性测评结果、精准性测评结果和性能测评结果并生成测评报告。

2.根据权利要求1所述的方法，其特征在于，在所述鲁棒性评价中，根据所述原始样本数据的物理变化和所述样本数据的外观变化获取鲁棒性测评结果，在获取物理变化过程中，在测试数据集中加入至多10%的所述测评样本参与本次测试，鲁棒性测评结果为|攻击后算法精准性-原算法精准性|≤ 0.07。

3.根据权利要求1所述的方法，其特征在于，在所述抗攻击性评价中，利用基于抗攻击算法生成的对抗样本进行攻击测试，要求|测试攻击的最大成功率-最低容忍成功率偏差|≤0.1，所述最大成功率为利用生成的对抗样本对所述测评样本进行攻击时，攻击成功使待测评人工智能产品发生误判的概率。

4.根据权利要求1所述的方法，其特征在于，在评估所述精准性的过程中，对于二分类算法，基线要求为AUC≥0.75；对于多分类算法，微平均F1或宏平均F1≥0.20；对于回归算法，RSD≤0.1。

5.根据权利要求2所述的方法，其特征在于，在测评所述精准性的过程中，若所述二分类算法、多分类算法、回归算法中有准确性的声明，则将精准性测评结果与声明进行比较。

6.根据权利要求1所述的方法，其特征在于，对所述性能指标的测评标准：单条预测时间≤10min，批量预测1000条时间≤1h且TPS≥20。

7.根据权利要求6所述的方法，其特征在于，在测评所述性能指标的过程中，若所述待测评人工智能产品有性能指标声明，则将评估的性能指标结果与性能指标声明进行比较。

8.一种融合多维信息的人工智能测评系统，其特征在于，包括服务器集群、存储器、控制端、本地服务器，所述服务器集群包括：

所述控制端用于，接收外部交互指令和反馈的待测评人工智能产品的测评结果，所述交互指令包括接收服务器集群下发的测评项目、向所述服务器集群发送调用指令；所述控制端包括测评管理器，用于向所述服务器集群发送指令调取适用于所述待测评人工智能产品的测评模块，接收所述测评模块发送的数据；

所述服务器集群用于，从存储端获取原始样本数据，并生成各测评项目所需的测评样本，它包括：安全测评模块、可解释性测评模块、精准性模块和性能测评模块：

所述安全测评模块用于，从所述存储端调取相应测评算法和与之对应的原始样本数据后，进行鲁棒性和抗攻击性测评并生成相应测评样本；

所述可解释性测评模块用于，根据所述待测评人工智能产品可解释性的强弱从所述存储端调取不同的测评算法和与算法对应的原始样本数据进行测评并生成相应测评内容；

所述精准性测评模块用于，将用于精准性测评的原始样本数据分为两份，分别用于训练阶段的精准性测评和实际预测阶段的精准性测评并生成相应测评样本；

所述性能测评模块用于，根据所述测评项目列表中的性能指标，配置与性能指标相同的服务器，并部署所述待测评人工智能产品，生成相应测评样本；

所述本地服务器用于，部署所述待测评人工智能产品，根据所述服务器集群发送的测评项目对所述待测评人工智能产品进行测评；

所述存储器用于，存储所述安全测评模块、所述可解释性测评模块、所述精准性测评模块、所述性能测评模块分别生成的测评样本以及测评过程中的测评记录、日志和结果文件。

9.根据权利要求8所述的系统，其特征在于，所述安全测评模块、所述可解释性测评模块、所述精准性测评模块、所述性能测评模块，均在进行下一测评准备之前，检查当前所需的测评内容是否均生成完毕。

10.根据权利要求8所述的系统，其特征在于，所述服务器集群还包括，测评报告生成模块，用于记录安全性测评结果、可解释性测评结果、精准性测评结果和性能测评结果并生成测评报告。