CN112416755B

CN112416755B - 人工智能模型评测方法、装置、电子设备及存储介质

Info

Publication number: CN112416755B
Application number: CN202011204594.XA
Authority: CN
Inventors: 杨凯; 梅一多; 何彬; 尧川; 鲍方; 刘桂娟
Original assignee: Zhongguancun Smart City Co Ltd
Current assignee: Zhongguancun Smart City Co Ltd
Priority date: 2020-11-02
Filing date: 2020-11-02
Publication date: 2022-01-21
Anticipated expiration: 2040-11-02
Also published as: CN112416755A

Abstract

本发明实施例提供一种人工智能模型评测方法、装置、电子设备及存储介质，本发明实施例将各待评测人工智能模型输出的第一模型输出数据结果映射为与当前业务场景的统一评测指标对应的第二模型输出数据结果，并根据第二模型输出数据结果与评测标注信息的对比结果，确定各待评测人工智能模型的评测结果。本发明实施例提供的人工智能模型评测方法、装置、电子设备及存储介质，能够为不同厂商的相同业务场景对应的人工智能模型提供统一的评测标准，让平台用户在未使用之前就对各厂商模型有了准确的期望，方便用户选取，方便厂商及时反馈，能够提高平台的整体水平。

Description

人工智能模型评测方法、装置、电子设备及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种人工智能模型评测方法、装置、电子设备及存储介质。

背景技术

智慧城市是把信息技术与城市建设融合在一起，将城市信息化推向更高阶段。它基于互联网、云计算、大数据、物联网、移动互联网等工具和方法，感测、分析、整合城市运行核心系统的各项关键信息，有助于缓解“大城市病”，实现信息化、工业化与城镇化深度融合，提高城镇化质量，实现精细化和动态管理，并提升城市管理成效和改善市民生活质量。

城市大脑是互联网大脑架构与智慧城市建设结合的产物，是城市级的类脑复杂智能巨系统，在智慧城市发展形成城市神经系统的同时，城市神经元网络和城市云反射弧将是城市大脑建设的重点。城市大脑的作用是提高城市的运行效率，解决城市运行中面临的复杂问题，更好的满足城市各成员的不同需求。人工智能计算处理中心是城市大脑的重要组成部分，是支撑“城市大脑”长期高效运行的基础，是“城市大脑”的基础算法分析平台，同时也是“城市大脑”持续演进的核心引擎。

在“城市大脑”的建设环境中，需要AI模型作为业务的支撑。目前多家AI厂商齐头并进，各厂商提供的模型的业务场景以及模型的功能都有差异。不同厂商同一业务场景下的模型评测很难统一，使得AI模型的评测不具备普遍性，对于不同厂商的不同模型不能够统一适配，评测结果只能够单一的描述本模型的各技术指标，很难让用户在应用模型前就有一个切实的模型好坏的判定标准。

发明内容

针对现有技术中的问题，本发明实施例提供一种人工智能模型评测方法、装置、电子设备及存储介质。

具体地，本发明实施例提供了以下技术方案：

第一方面，本发明实施例提供了一种人工智能模型评测方法，包括：

根据当前业务场景的标识查询评测文件数据库，确定与当前业务场景对应的评测文件；其中，所述评测文件数据库中存储有与各业务场景对应的评测文件；所述评测文件用于作为各待评测人工智能模型的输入文件；

将所述评测文件输入至各待评测人工智能模型中，得到各待评测人工智能模型输出的第一模型输出数据结果；所述第一模型输出数据结果与各待评测人工智能模型对应的评测指标相对应；

根据当前业务场景的标识查询评测指标数据库，确定与当前业务场景对应的统一评测指标；其中，所述评测指标数据库中存储有与各业务场景对应的统一评测指标；

根据各待评测人工智能模型输出的第一模型输出数据结果、与各待评测人工智能模型对应的评测指标以及与当前业务场景对应的统一评测指标，将各待评测人工智能模型输出的第一模型输出数据结果映射为与所述统一评测指标对应的第二模型输出数据结果；

确定与所述评测文件对应的评测标注信息；

根据与各待评测人工智能模型对应的第二模型输出数据结果与所述评测标注信息的对比结果，确定各待评测人工智能模型的评测结果。

进一步地，所述人工智能模型评测方法，还包括：建立所述评测指标数据库的步骤，具体包括：

确定每个业务场景下的评测指标规则，对每个业务场景下的业务指标进行抽象封装，确定与每个业务场景对应的统一评测指标。

进一步地，若与当前业务场景对应的评测文件有多个，则获取多个评测文件；

相应地，将多个评测文件输入至各待评测人工智能模型中，得到与每个待评测人工智能模型对应的多个第一模型输出数据结果；

相应地，将与每个待评测人工智能模型对应的多个第一模型输出数据结果分别映射为与所述统一评测指标对应的多个第二模型输出数据结果；

相应地，确定与每个评测文件对应的评测标注信息；

相应地，将与每个待评测人工智能模型对应的多个第二模型输出数据结果分别与相应的评测文件对应的评测标注信息进行比对，得到多个对比结果；

根据所述多个对比结果，确定相应待评测人工智能模型的评测结果。

进一步地，确定与每个评测文件对应的评测标注信息，包括：

对于每个评测文件，按照统一的标注规则，对评测文件中与统一评测指标对应的内容进行标注，确定与每个评测文件对应的评测标注信息。

进一步地，根据各待评测人工智能模型输出的第一模型输出数据结果、与各待评测人工智能模型对应的评测指标以及与当前业务场景对应的统一评测指标，将各待评测人工智能模型输出的第一模型输出数据结果映射为与所述统一评测指标对应的第二模型输出数据结果，包括下述方式中的一种或多种：

若与待评测人工智能模型对应的评测指标中存在有与所述统一评测指标相比多余的评测指标，则删除所述多余的评测指标，并将删除所述多余的评测指标后的第一模型输出数据结果自动映射为与所述统一评测指标对应的第二模型输出数据结果；

若与待评测人工智能模型对应的评测指标中缺乏所述统一评测指标中的一个或多个评测指标，则向相应的待评测人工智能模型所属厂商发出通知信息，以通知相应的待评测人工智能模型所属厂商增加所述一个或多个评测指标；其中，所述通知信息中携带有与当前业务场景对应的统一评测指标，以及，所缺乏的一个或多个评测指标；

若与待评测人工智能模型对应的评测指标中存在有与所述统一评测指标中的任一评测指标不匹配的评测指标，则调整与所述统一评测指标不匹配的评测指标，使得调整后的评测指标与所述统一评测指标中的对应评测指标匹配。

进一步地，所述第二模型输出数据结果中包含有与所述统一评测指标中的多个评测指标分别对应的输出数据；

相应地，根据与各待评测人工智能模型对应的第二模型输出数据结果与所述评测标注信息的对比结果，确定各待评测人工智能模型的评测结果，包括：

针对每一待评测人工智能模型，执行如下处理：

将所述第二模型输出数据结果中包含的与所述统一评测指标中的多个评测指标分别对应的输出数据，分别与所述评测标注信息中相应评测指标对应的评测标注结果进行对比，确定所述统一评测指标中每个评测指标的评测结果；

根据所述统一评测指标中每个评测指标的评测结果，确定相应待评测人工智能模型的评测结果。

进一步地，所述人工智能模型评测方法，还包括：

针对每一待评测人工智能模型，将所述评测文件重复多次输入至待评测人工智能模型中，得到多次评测操作对应的第一模型输出数据结果；

相应地，根据多次评测操作对应的第一模型输出数据结果，得到多次评测操作对应的第二模型输出数据结果；

相应地，将多次评测操作对应的第二模型输出数据结果分别与所述评测标注信息进行对比，根据多次评测操作对应的第二模型输出数据结果与所述评测标注信息的对比结果，确定相应待评测人工智能模型的评测结果。

第二方面，本发明实施例还提供了一种人工智能模型评测装置，包括：

第一确定模块，用于根据当前业务场景的标识查询评测文件数据库，确定与当前业务场景对应的评测文件；其中，所述评测文件数据库中存储有与各业务场景对应的评测文件；所述评测文件用于作为各待评测人工智能模型的输入文件；

获取模块，用于将所述评测文件输入至各待评测人工智能模型中，得到各待评测人工智能模型输出的第一模型输出数据结果；所述第一模型输出数据结果与各待评测人工智能模型对应的评测指标相对应；

第二确定模块，用于根据当前业务场景的标识查询评测指标数据库，确定与当前业务场景对应的统一评测指标；其中，所述评测指标数据库中存储有与各业务场景对应的统一评测指标；

映射模块，用于根据各待评测人工智能模型输出的第一模型输出数据结果、与各待评测人工智能模型对应的评测指标以及与当前业务场景对应的统一评测指标，将各待评测人工智能模型输出的第一模型输出数据结果映射为与所述统一评测指标对应的第二模型输出数据结果；

第三确定模块，用于确定与所述评测文件对应的评测标注信息；

第四确定模块，用于根据与各待评测人工智能模型对应的第二模型输出数据结果与所述评测标注信息的对比结果，确定各待评测人工智能模型的评测结果。

第三方面，本发明实施例还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所述的人工智能模型评测方法的步骤。

第四方面，本发明实施例还提供了一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所述的人工智能模型评测方法的步骤。

由上面技术方案可知，本发明实施例提供的人工智能模型评测方法、装置、电子设备及存储介质，首先根据当前业务场景的标识查询评测文件数据库，确定与当前业务场景对应的评测文件，然后将所述评测文件输入至各待评测人工智能模型中，得到各待评测人工智能模型输出的第一模型输出数据结果，接着根据当前业务场景的标识查询评测指标数据库，确定与当前业务场景对应的统一评测指标，然后根据各待评测人工智能模型输出的第一模型输出数据结果、与各待评测人工智能模型对应的评测指标以及与当前业务场景对应的统一评测指标，将各待评测人工智能模型输出的第一模型输出数据结果映射为与所述统一评测指标对应的第二模型输出数据结果，接着确定与所述评测文件对应的评测标注信息，最后将与各待评测人工智能模型对应的第二模型输出数据结果与所述评测标注信息进行对比，并根据与各待评测人工智能模型对应的第二模型输出数据结果与所述评测标注信息的对比结果，确定各待评测人工智能模型的评测结果。由此可见，本发明实施例提供的人工智能模型评测方法、装置、电子设备及存储介质，能够为不同厂商的相同业务场景对应的人工智能模型提供统一的评测标准，让平台用户在未使用之前就对各厂商模型有了准确的期望，方便用户选取，方便厂商及时反馈，能够提高平台的整体水平。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的人工智能模型评测方法的流程图；

图2为本发明一实施例提供的人工智能模型评测方法的实现过程示意图；

图3为本发明一实施例提供的人工智能模型评测方法的原理架构示意图；

图4为本发明一实施例提供的人工智能模型评测装置的结构示意图；

图5为本发明一实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1示出了本发明实施例提供的人工智能模型评测方法的流程图。如图1所示，本发明实施例提供的人工智能模型评测方法包括如下步骤：

步骤101：根据当前业务场景的标识查询评测文件数据库，确定与当前业务场景对应的评测文件；其中，所述评测文件数据库中存储有与各业务场景对应的评测文件；所述评测文件用于作为各待评测人工智能模型的输入文件；

在本实施例中，可以理解的是，不同的业务场景对应不同的评测文件。例如，对于图像识别类的业务场景，其对应的评测文件一般是图片。此外，业务场景还可以细分，若业务场景为人脸识别场景，则其对应的评测文件一般是人脸图像；如业务场景为答题识别场景，则其对应的评测文件为考卷。

在本实施例中，需要说明的是，与每种业务场景对应的评测文件可以有一个或多个。

步骤102：将所述评测文件输入至各待评测人工智能模型中，得到各待评测人工智能模型输出的第一模型输出数据结果；所述第一模型输出数据结果与各待评测人工智能模型对应的评测指标相对应；

在本步骤中，将获取的评测文件输入至各待评测人工智能模型中，得到各待评测人工智能模型输出的第一模型输出数据结果。可以理解的是，第一模型输出数据结果为待评测人工智能模型的输出。举例来说，假设所述待评测人工智能模型为答题识别模型，则所述第一模型输出数据结果为考卷答题识别结果。

在本步骤中，需要说明的是，所述第一模型输出数据结果可以与一个评测指标相对应，也可以与多个评测指标相对应。举例来说，假设业务场景为答题识别场景，其对应一个评测指标为答题识别文本，则所述第一模型输出数据结果与一个评测指标(答题识别文本)相对应。又如，假设业务场景为答题识别场景，其对应两个评测指标分别为“答题识别文本”和“是否超字数”，则所述第一模型输出数据结果与两个评测指标(“答题识别文本”和“是否超字数”)相对应，也即所述第一模型输出数据结果中同时包含“答题识别文本”的识别结果以及“是否超字数”的识别结果。

步骤103：根据当前业务场景的标识查询评测指标数据库，确定与当前业务场景对应的统一评测指标；其中，所述评测指标数据库中存储有与各业务场景对应的统一评测指标；

在本步骤中，为了能够为不同厂商的相同业务场景对应的人工智能模型提供统一的评测标准，让平台用户在未使用之前就对各厂商模型有了准确的期望，本实施例预先确定了与每个业务场景对应的统一评测指标。例如，对于渣土车识别场景来说，假设厂商A的渣土车识别模型的评测指标为：可识别是否渣土车(0-否/1-是/2-不能识别)，车牌号码(文本)，是否有苫盖(0/1)，是否超载(0/1)；假设厂商B的渣土车识别模型的评测指标为：可识别是否渣土车(T/F)，车牌号码(文本)，是否超载(T/F)。由此可见，两家厂商的模型使用场景相同，但实现的功能及返回的数据不同，不能直接进行对比。为此，本发明实施例引入统一评测指标概念，将处理结果进行映射统一。具体地，预先确定与渣土车识别场景对应的统一评测指标为：是否渣土车(0-否/1-是)；映射方法：A(0-否/1-是/2-不能识别)＝>(0＝>0/1＝>1/2＝>0)；B(T/F)＝>(T＝>1/F＝>0)，由此可以统一各模型的处理结果，由此可见，通过统一评测指标，可以统一业务维度。

步骤104：根据各待评测人工智能模型输出的第一模型输出数据结果、与各待评测人工智能模型对应的评测指标以及与当前业务场景对应的统一评测指标，将各待评测人工智能模型输出的第一模型输出数据结果映射为与所述统一评测指标对应的第二模型输出数据结果；

在本步骤中，正如前面所举的例子，假设厂商A的渣土车识别模型的评测指标为：可识别是否渣土车(0-否/1-是/2-不能识别)，车牌号码(文本)，是否有苫盖(0/1)，是否超载(0/1)；假设厂商B的渣土车识别模型的评测指标为：可识别是否渣土车(T/F)，车牌号码(文本)，是否超载(T/F)。由此可见，两家厂商的模型使用场景相同，但实现的功能及返回的数据不同，不能直接进行对比。为此，本发明实施例引入统一评测指标概念，将处理结果进行映射统一。具体地，预先确定与渣土车识别场景对应的统一评测指标为：是否渣土车(0-否/1-是)；映射方法：A(0-否/1-是/2-不能识别)＝>(0＝>0/1＝>1/2＝>0)；B(T/F)＝>(T＝>1/F＝>0)。

步骤105：确定与所述评测文件对应的评测标注信息；

在本步骤中，可以理解的是，与评测文件对应的评测标注信息为预处理的标准识别结果。举例来说，图像处理类模型的评测文件一般为图片(类似考卷)，模型处理图片后将识别结果返回(类似答题)，评测文件的标注信息为预处理的标准识别结果一般为文本(类似答案)。

步骤106：根据与各待评测人工智能模型对应的第二模型输出数据结果与所述评测标注信息的对比结果，确定各待评测人工智能模型的评测结果。

在本步骤中，由于与各待评测人工智能模型对应的第二模型输出数据结果属于各待评测人工智能模型的识别结果，而所述评测标注信息属于预处理的标准识别结果，因此，通过两者的对比，可以确定各待评测人工智能模型的识别准确度或识别准确率或识别性能，进而可以确定各待评测人工智能模型的评测结果。可以理解的是，各待评测人工智能模型的评测结果可以以分值的方式体现，也可以以等级的方式体现，也可以以性能优劣的方式体现，还可以以其他方式进行体现，本实施例对此不做限定。

由上面技术方案可知，本发明实施例提供的人工智能模型评测方法，首先根据当前业务场景的标识查询评测文件数据库，确定与当前业务场景对应的评测文件，然后将所述评测文件输入至各待评测人工智能模型中，得到各待评测人工智能模型输出的第一模型输出数据结果，接着根据当前业务场景的标识查询评测指标数据库，确定与当前业务场景对应的统一评测指标，然后根据各待评测人工智能模型输出的第一模型输出数据结果、与各待评测人工智能模型对应的评测指标以及与当前业务场景对应的统一评测指标，将各待评测人工智能模型输出的第一模型输出数据结果映射为与所述统一评测指标对应的第二模型输出数据结果，接着确定与所述评测文件对应的评测标注信息，最后将与各待评测人工智能模型对应的第二模型输出数据结果与所述评测标注信息进行对比，并根据与各待评测人工智能模型对应的第二模型输出数据结果与所述评测标注信息的对比结果，确定各待评测人工智能模型的评测结果。由此可见，本发明实施例提供的人工智能模型评测方法，能够为不同厂商的相同业务场景对应的人工智能模型提供统一的评测标准，让平台用户在未使用之前就对各厂商模型有了准确的期望，方便用户选取，方便厂商及时反馈，能够提高平台的整体水平。

基于上述实施例的内容，在本实施例中，所述人工智能模型评测方法，还包括：建立所述评测指标数据库的步骤，具体包括：

在本实施例中，为能够为不同厂商的相同业务场景对应的人工智能模型提供统一的评测标准，本实施例为每种业务场景分别确定了对应的统一评测指标，具体地，在为每种业务场景分别确定对应的统一评测指标时，可以先确定每种业务场景下的评测指标规则，然后对每个业务场景下的业务指标进行抽象封装，最后确定与每个业务场景对应的统一评测指标。

基于上述实施例的内容，在本实施例中，若与当前业务场景对应的评测文件有多个，则获取多个评测文件；

相应地，确定与每个评测文件对应的评测标注信息；

在本实施例中，为提高待评测人工智能模型的评测结果的准确度，当与当前业务场景对应的评测文件有多个时，可以同时获取多个评测文件(可以是所有的评测文件，也可以是部分的评测文件)，然后将多个评测文件输入至各待评测人工智能模型中，得到与每个待评测人工智能模型对应的多个第一模型输出数据结果，然后将与每个待评测人工智能模型对应的多个第一模型输出数据结果分别映射为与所述统一评测指标对应的多个第二模型输出数据结果，然后确定与每个评测文件对应的评测标注信息，然后将与每个待评测人工智能模型对应的多个第二模型输出数据结果分别与相应的评测文件对应的评测标注信息进行比对，得到多个对比结果，最后根据所述多个对比结果，确定相应待评测人工智能模型的评测结果。可以理解的是，本实施例这种处理方式，能够获知待评测人工智能模型分别对多个评测文件的识别性能，从而综合根据待评测人工智能模型对多个评测文件的识别性能能够更为准确地确定待评测人工智能模型的评测结果。

基于上述实施例的内容，在本实施例中，确定与每个评测文件对应的评测标注信息，包括：

在本实施例中，为确保评测标注信息的统一性和可参考性，进而保证待评测人工智能模型的评测结果的准确性，本实施例对于每个评测文件，按照统一的标注规则，对评测文件中与统一评测指标对应的内容进行标注，确定与每个评测文件对应的评测标注信息，从而能够保证评测标注信息的统一性和可参考性，进而保证待评测人工智能模型的评测结果的准确性。

基于上述实施例的内容，在本实施例中，根据各待评测人工智能模型输出的第一模型输出数据结果、与各待评测人工智能模型对应的评测指标以及与当前业务场景对应的统一评测指标，将各待评测人工智能模型输出的第一模型输出数据结果映射为与所述统一评测指标对应的第二模型输出数据结果，包括下述方式中的一种或多种：

在本实施例中，在将各待评测人工智能模型输出的第一模型输出数据结果映射为与所述统一评测指标对应的第二模型输出数据结果时，包括下述方式中的一种或多种：

①若与待评测人工智能模型对应的评测指标中存在有与所述统一评测指标相比多余的评测指标，则删除所述多余的评测指标，并将删除所述多余的评测指标后的第一模型输出数据结果自动映射为与所述统一评测指标对应的第二模型输出数据结果；

在本实现方式中，举例来说，对于渣土车识别场景，假设厂商A的渣土车识别模型的评测指标为：可识别是否渣土车(0-否/1-是/2-不能识别)，车牌号码(文本)，是否有苫盖(0/1)，是否超载(0/1)；而与该场景对应的统一评测指标只包括可识别是否渣土车和车牌号码，则说明“是否有苫盖(0/1)，是否超载(0/1)”属于“与所述统一评测指标相比多余的评测指标”，因而可以删除“是否有苫盖(0/1)，是否超载(0/1)”这两个多余的评测指标，并将删除所述多余的评测指标后的第一模型输出数据结果自动映射为与所述统一评测指标对应的第二模型输出数据结果。具体地，预先确定与渣土车识别场景对应的统一评测指标为：是否渣土车(0-否/1-是)；映射方法：A(0-否/1-是/2-不能识别)＝>(0＝>0/1＝>1/2＝>0)。

②若与待评测人工智能模型对应的评测指标中缺乏所述统一评测指标中的一个或多个评测指标，则向相应的待评测人工智能模型所属厂商发出通知信息，以通知相应的待评测人工智能模型所属厂商增加所述一个或多个评测指标；其中，所述通知信息中携带有与当前业务场景对应的统一评测指标，以及，所缺乏的一个或多个评测指标；

在本实现方式中，可以理解的是，若与待评测人工智能模型对应的评测指标中缺乏所述统一评测指标中的一个或多个评测指标，则向相应的待评测人工智能模型所属厂商发出通知信息，以通知相应的待评测人工智能模型所属厂商增加所述一个或多个评测指标，从而使得待评测人工智能模型能够满足参与统一评测的条件，进而使得不同厂商的相同业务场景对应的人工智能模型能够具备统一的评测标准。

③若与待评测人工智能模型对应的评测指标中存在有与所述统一评测指标中的任一评测指标不匹配的评测指标，则调整与所述统一评测指标不匹配的评测指标，使得调整后的评测指标与所述统一评测指标中的对应评测指标匹配。

在本实现方式中，对于渣土车识别场景来说，假设厂商A的渣土车识别模型的评测指标为：可识别是否渣土车(0-否/1-是/2-不能识别)，车牌号码(文本)，是否有苫盖(0/1)，是否超载(0/1)；假设厂商B的渣土车识别模型的评测指标为：可识别是否渣土车(T/F)，车牌号码(文本)，是否超载(T/F)。由此可见，两家厂商的模型使用场景相同，但实现的功能及返回的数据不同，不能直接进行对比。为此，本发明实施例将处理结果进行映射统一。具体地，预先确定与渣土车识别场景对应的统一评测指标为：是否渣土车(0-否/1-是)；映射方法：A(0-否/1-是/2-不能识别)＝>(0＝>0/1＝>1/2＝>0)；B(T/F)＝>(T＝>1/F＝>0)，由此可见，本实施例将待评测人工智能模型A和B中存在的与所述统一评测指标不匹配的评测指标进行了调整，使得调整后的评测指标与所述统一评测指标中的对应评测指标能够匹配，从而方便后续进行统一评测，也即使得不同厂商的相同业务场景对应的人工智能模型能够具备统一的评测标准。

由此可见，本实施例根据各待评测人工智能模型输出的第一模型输出数据结果、与各待评测人工智能模型对应的评测指标以及与当前业务场景对应的统一评测指标，将各待评测人工智能模型输出的第一模型输出数据结果映射为与所述统一评测指标对应的第二模型输出数据结果，从而使得不同厂商的相同业务场景对应的人工智能模型能够具备统一的评测标准，由此可见，即使不同厂商的模型处理结果差异性大，也可以在同一业务维度进行评测。在实际使用前，就能够给平台用户评判标准，方便用户评估选择不同厂商的模型，避免使用后效果不好造成的损失。

可以理解的是，在城市大脑中，建立人工智能模型评测和发布系统，汇集了众多第三方厂商，他们可以上传自己的算法和模型。评测系统首先进行评测，根据本发明实施例中提供的评测方法，得出参考的分数。城市大脑的用户根据评测结果，选择自己想要使用的模型，达到为城市大脑服务的目的。同时也为算法和模型提供商，提供了展示和参与城市大脑的平台。

基于上述实施例的内容，在本实施例中，所述第二模型输出数据结果中包含有与所述统一评测指标中的多个评测指标分别对应的输出数据；

针对每一待评测人工智能模型，执行如下处理：

在本实施例中，所述第二模型输出数据结果中包含有与所述统一评测指标中的多个评测指标分别对应的输出数据，相应地，在确定相应待评测人工智能模型的评测结果，可以将所述第二模型输出数据结果中包含的与所述统一评测指标中的多个评测指标分别对应的输出数据，分别与所述评测标注信息中相应评测指标对应的评测标注结果进行对比，确定所述统一评测指标中每个评测指标的评测结果，然后根据所述统一评测指标中每个评测指标的评测结果，确定相应待评测人工智能模型的评测结果，由此可见，本实施例这种通过将各个评测指标分别与评测标注信息中相应评测指标对应的评测标注结果进行对比确定所述统一评测指标中每个评测指标的评测结果，并根据所述统一评测指标中每个评测指标的评测结果，确定相应待评测人工智能模型的评测结果的评测方式，能够较为准确地确定各待评测人工智能模型的评测结果。

基于上述实施例的内容，在本实施例中，所述的人工智能模型评测方法，还包括：

在本实施例中，需要说明的是，为提高待评测人工智能模型的评测结果的准确度和可信度，优选地，针对每一待评测人工智能模型，将所述评测文件重复多次输入至待评测人工智能模型中，得到多次评测操作对应的第一模型输出数据结果，然后根据多次评测操作对应的第一模型输出数据结果，得到多次评测操作对应的第二模型输出数据结果，最后将多次评测操作对应的第二模型输出数据结果分别与所述评测标注信息进行对比，根据多次评测操作对应的第二模型输出数据结果与所述评测标注信息的对比结果，确定相应待评测人工智能模型的评测结果。由此可见，通过这种处理方式，可以更加准确或稳定地获取各待评测人工智能模型的评测结果，避免依据单次结果而导致的评测偏差。

需要说明的是，本发明实施例提供的是一种人工智能模型评测方法，当前城市大脑的建设环境中，多家AI厂商齐头并进，各厂商提供的模型的业务场景以及模型的功能都有差异，不同厂商同一业务场景下的模型评测很难统一。本发明实施例提供了人工智能模型评测方法，能够为不同厂商的同场景模型提供统一的评测标准，让平台用户在未使用之前就对各厂商模型有了准确的期望，方便用户选取，方便厂商及时反馈，能够提高平台的整体水平。具体地，本发明实施例提供的人工智能模型评测方法的业务流程如图2所示，评测发起后，评测记录信息在评测中心进行初始化，再通过模型仓库，数据仓库的检索服务，检索评测相关的模型，数据信息，进行业务处理后，存储并发布到评测平台。评测记录发布完成后，评测记录为评测中状态，此时再通过API中心对评测模型对应接口进行评测访问，获取模型处理结果。再由评测数据匹配中心进行评测数据关联处理。可以理解的是，所述评测记录信息中记录有如下信息:对当前已经部署的模型算法发起的评测过程产生的所有信息以及评测结果。所述模型仓库中存储有如下信息：所有待进行评测的人工智能模型，可以理解的是，通过模型仓库能够实现模型信息的维护、发布和检索等相关功能。所述数据仓库中存储有如下信息：训练数据、评测文件、评测文件的标注信息等，可以理解的是，通过数据仓库能够实现数据信息的维护、发布和检索等相关功能。此外，需要说明的是，人工智能模型的评测结果是由评测引擎根据待评测模型处理评测文件产生的评测样本计算出来的，评测结果包含多个算法指标的打分及分析图表，整个评测结果可以封装处理成为一个评测报告。如图2所示，本发明实施例提供的人工智能模型评测方法的业务流程包括如下过程：待评测模型信息检索，查询对应的应用场景信息；应用场景信息检索，查询适用的评测数据。评测数据下载和解析，获得数个评测文件及其评测标注。评测文件发送至待评测模型，获取模型处理结果。模型处理结果对比评测文件标注信息，生成待评测样本。待评测样本交由评测引擎处理，获取多个评测指标评测结果，生成评测报告。全部业务信息存储后发布到评测平台。

在本实施例中，需要说明的是，评测数据匹配中心如图3所示，模型场景管理和评测指标管理规范化管理当前平台的所有业务场景和场景的评测指标，评测文件管理和评测文件标注管理用于管理平台下的所有评测文件，并将规范后的评测标标注到评测文件上。不同厂商在相同业务场景下实现的不同模型都按照评测指标进行规范，具体的映射关系由模型指标映射管理进行统一管理。评测数据经过评测数据匹配中心处理后，各个厂商的模型评测都以平台中的评测指标为标准。评测数据再交由评测引擎进行评测，评测后的结果由评测中心进行存储发布，最后生成评测报告。

由此可见，本实施例根据每个业务场景的评测指标规则，对业务场景下的业务指标进行抽象封装，指定统一的指标规则。此外，本实施例对评测文件进行统一标注，评测文件标注时使用统一指标规则，其他三方的评测数据需进行统一转化，统一管理。此外，对于各厂商模型的评测指标来说，由于各厂商模型处理结果及维度各不相同，因此，本实施例对各厂商的人工智能模型的评测指标进行了映射，确保处理结果与评测指标规则统一。例如，厂商A的渣土车识别模型：可识别是否渣土车(0-否/1-是/2-不能识别)，车牌号码(文本)，是否有苫盖(0/1)，是否超载(0/1)；厂商B的渣土车识别模型：可识别是否渣土车(T/F)，车牌号码(文本)，是否超载(T/F)。两家厂商的模型使用场景相同，但实现的功能及返回的数据不同，不能直接进行对比。为此，本发明实施例引入场景指标概念，将处理结果进行映射统一。具体地，定义的场景处理指标：是否渣土车(0-否/1-是)；映射方法：A(0-否/1-是/2-不能识别)＝>(0＝>0/1＝>1/2＝>0)；B(T/F)＝>(T＝>1/F＝>0)，由此可以统一各模型的处理结果，由此可见，通过统一场景指标，可以统一业务维度。由此可见，本发明实施例可以用于人工智能发布平台，用于评测各人工智能模型，给出相应的得分，从而可以对比不同厂商模型的评分。可以理解的是，本实施例对不同厂商的模型进行业务分类，对应到平台制定的各个业务场景中，使用场景中的评测指标规则统一评测不同厂商的模型结果，即使不同厂商的模型处理结果差异性大，也可以在同一业务维度进行评测。在实际使用前，就能够给平台用户评判标准，方便用户评估选择不同厂商的模型，避免使用后效果不好造成的损失。

图4示出了本发明实施例提供的人工智能模型评测装置的结构示意图。如图4所示，本实施例提供的人工智能模型评测装置，包括：第一确定模块21、获取模块22、第二确定模块23、映射模块24、第三确定模块25和第四确定模块26，其中：

第一确定模块21，用于根据当前业务场景的标识查询评测文件数据库，确定与当前业务场景对应的评测文件；其中，所述评测文件数据库中存储有与各业务场景对应的评测文件；所述评测文件用于作为各待评测人工智能模型的输入文件；

获取模块22，用于将所述评测文件输入至各待评测人工智能模型中，得到各待评测人工智能模型输出的第一模型输出数据结果；所述第一模型输出数据结果与各待评测人工智能模型对应的评测指标相对应；

第二确定模块23，用于根据当前业务场景的标识查询评测指标数据库，确定与当前业务场景对应的统一评测指标；其中，所述评测指标数据库中存储有与各业务场景对应的统一评测指标；

映射模块24，用于根据各待评测人工智能模型输出的第一模型输出数据结果、与各待评测人工智能模型对应的评测指标以及与当前业务场景对应的统一评测指标，将各待评测人工智能模型输出的第一模型输出数据结果映射为与所述统一评测指标对应的第二模型输出数据结果；

第三确定模块25，用于确定与所述评测文件对应的评测标注信息；

第四确定模块26，用于根据与各待评测人工智能模型对应的第二模型输出数据结果与所述评测标注信息的对比结果，确定各待评测人工智能模型的评测结果。

由于本实施例提供的人工智能模型评测装置可以用于执行上述实施例提供的人工智能模型评测方法，其工作原理和有益效果类似，此处不再详述。

基于相同的发明构思，本发明又一实施例提供了一种电子设备，参见图5，所述电子设备具体包括如下内容：处理器301、存储器302、通信接口303和通信总线304；

其中，所述处理器301、存储器302、通信接口303通过所述通信总线304完成相互间的通信；所述通信接口303用于实现各设备之间的信息传输；

所述处理器301用于调用所述存储器302中的计算机程序，所述处理器执行所述计算机程序时实现上述人工智能模型评测方法的全部步骤，例如，所述处理器执行所述计算机程序时实现下述步骤：根据当前业务场景的标识查询评测文件数据库，确定与当前业务场景对应的评测文件；其中，所述评测文件数据库中存储有与各业务场景对应的评测文件；所述评测文件用于作为各待评测人工智能模型的输入文件；将所述评测文件输入至各待评测人工智能模型中，得到各待评测人工智能模型输出的第一模型输出数据结果；所述第一模型输出数据结果与各待评测人工智能模型对应的评测指标相对应；根据当前业务场景的标识查询评测指标数据库，确定与当前业务场景对应的统一评测指标；其中，所述评测指标数据库中存储有与各业务场景对应的统一评测指标；根据各待评测人工智能模型输出的第一模型输出数据结果、与各待评测人工智能模型对应的评测指标以及与当前业务场景对应的统一评测指标，将各待评测人工智能模型输出的第一模型输出数据结果映射为与所述统一评测指标对应的第二模型输出数据结果；确定与所述评测文件对应的评测标注信息；根据与各待评测人工智能模型对应的第二模型输出数据结果与所述评测标注信息的对比结果，确定各待评测人工智能模型的评测结果。

基于相同的发明构思，本发明又一实施例提供了一种非暂态计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述人工智能模型评测方法的全部步骤，例如，所述处理器执行所述计算机程序时实现下述步骤：根据当前业务场景的标识查询评测文件数据库，确定与当前业务场景对应的评测文件；其中，所述评测文件数据库中存储有与各业务场景对应的评测文件；所述评测文件用于作为各待评测人工智能模型的输入文件；将所述评测文件输入至各待评测人工智能模型中，得到各待评测人工智能模型输出的第一模型输出数据结果；所述第一模型输出数据结果与各待评测人工智能模型对应的评测指标相对应；根据当前业务场景的标识查询评测指标数据库，确定与当前业务场景对应的统一评测指标；其中，所述评测指标数据库中存储有与各业务场景对应的统一评测指标；根据各待评测人工智能模型输出的第一模型输出数据结果、与各待评测人工智能模型对应的评测指标以及与当前业务场景对应的统一评测指标，将各待评测人工智能模型输出的第一模型输出数据结果映射为与所述统一评测指标对应的第二模型输出数据结果；确定与所述评测文件对应的评测标注信息；根据与各待评测人工智能模型对应的第二模型输出数据结果与所述评测标注信息的对比结果，确定各待评测人工智能模型的评测结果。

此外，上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的人工智能模型评测方法。

此外，在本发明中，诸如“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

此外，在本发明中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

此外，在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种人工智能模型评测方法，其特征在于，包括：

确定与所述评测文件对应的评测标注信息；

2.根据权利要求1所述的人工智能模型评测方法，其特征在于，还包括：建立所述评测指标数据库的步骤，具体包括：

3.根据权利要求1所述的人工智能模型评测方法，其特征在于，若与当前业务场景对应的评测文件有多个，则获取多个评测文件；

将多个评测文件输入至各待评测人工智能模型中，得到与每个待评测人工智能模型对应的多个第一模型输出数据结果；

将与每个待评测人工智能模型对应的多个第一模型输出数据结果分别映射为与所述统一评测指标对应的多个第二模型输出数据结果；

确定与每个评测文件对应的评测标注信息；

将与每个待评测人工智能模型对应的多个第二模型输出数据结果分别与相应的评测文件对应的评测标注信息进行比对，得到多个对比结果；

4.根据权利要求3所述的人工智能模型评测方法，其特征在于，确定与每个评测文件对应的评测标注信息，包括：

5.根据权利要求1所述的人工智能模型评测方法，其特征在于，根据各待评测人工智能模型输出的第一模型输出数据结果、与各待评测人工智能模型对应的评测指标以及与当前业务场景对应的统一评测指标，将各待评测人工智能模型输出的第一模型输出数据结果映射为与所述统一评测指标对应的第二模型输出数据结果，包括下述方式中的一种或多种：

6.根据权利要求1所述的人工智能模型评测方法，其特征在于，所述第二模型输出数据结果中包含有与所述统一评测指标中的多个评测指标分别对应的输出数据；

针对每一待评测人工智能模型，执行如下处理：

7.根据权利要求1所述的人工智能模型评测方法，其特征在于，还包括：

根据多次评测操作对应的第一模型输出数据结果，得到多次评测操作对应的第二模型输出数据结果；

将多次评测操作对应的第二模型输出数据结果分别与所述评测标注信息进行对比，根据多次评测操作对应的第二模型输出数据结果与所述评测标注信息的对比结果，确定相应待评测人工智能模型的评测结果。

8.一种人工智能模型评测装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述的人工智能模型评测方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至7任一项所述的人工智能模型评测方法的步骤。