CN112416754B

CN112416754B - 一种模型评测方法、终端、系统及存储介质

Info

Publication number: CN112416754B
Application number: CN202011204586.5A
Authority: CN
Inventors: 谷雨明; 梅一多; 何彬; 李慎国; 朱晓敏; 贺亮
Original assignee: Zhongguancun Smart City Co Ltd
Current assignee: Zhongguancun Smart City Co Ltd
Priority date: 2020-11-02
Filing date: 2020-11-02
Publication date: 2021-09-03
Anticipated expiration: 2040-11-02
Also published as: CN112416754A

Abstract

本发明涉及一种模型评测方法、终端、系统及存储介质，方法包括获取待评测算法模型和待评测数据的查询关键字；基于BERT技术，结合上下文语境分别在对应的评测数据库中对查询关键字进行查询；对得到的查询结果进行评测，并生成模型评测记录，基于BERT技术，结合上下文语境，进而可以灵活、高效且可扩展地对模型仓库的不同模型，以及数据仓库的不同训练集数据进行更精确地检索，以解决现有检索技术存在的问题，实现更精准地获得查询结果，提高评测的工作效率，优化用户体验。

Description

一种模型评测方法、终端、系统及存储介质

技术领域

本发明涉及通信领域，具体涉及一种模型评测方法、终端、系统及存储介质。

背景技术

城市大脑是人工智能、大数据、区块链、5G、物联网等新一代信息技术与智慧城市建设结合的产物，基于城市所产生的数据资源，在城市交通治理、公共安全、应急管理、网格防控、医疗卫生、旅游、环境保护、城市精细化管理等应用场景，搭建城市级神经感知网，实现城市的精细化、动态化管理，提升城市管理成效，缓解“大城市病”，改善市民生活质量，将城市信息化推向更高阶段。

人工智能计算处理中心平台是城市大脑的重要组成部分，是支撑“城市大脑”长期高效运行的基础，是“城市大脑”的基础算法分析平台，同时也是“城市大脑”持续演进的核心引擎；城市大脑需要众多的AI算法作为业务的支撑，对于不同厂商接入的不同模型，需要提供一个统一的AI评测系统，其中还包括模型仓库和数据仓库的管理等，以便对各厂商的模型和不同类型算法的评测数据进行有效的管理和调度；在进行AI算法评测时，传统的模糊查询技术主要是模糊字符串匹配方法，它依据Levenshtein Distance算法计算两个序列之间的差异，Levenshtein Distance算法，又叫Edit Distance算法，是指两个字符串之间，由一个转成另一个所需的最少编辑操作次数；许可的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符；编辑距离越小，两个字符串的相似度越大；但若模型的名称相近或数据集的名称相似，通过Levenshtein Distance算法最终匹配的效果不佳，易出现检索错误。

发明内容

本发明所要解决的技术问题是针对上述现有技术的不足，提供一种模型评测方法、终端、系统及存储介质，在评测AI模型时，支持模糊查询，基于BERT(BidirectionalEncoder Representations from Transformers)技术，结合上下文语境，更精准地获得查询结果，提高评测的工作效率，优化用户体验。

本发明解决上述技术问题的技术方案如下：一种模型评测方法，包括：

获取待评测算法模型和待评测数据的查询关键字；

基于BERT技术，结合上下文语境分别在对应的评测数据库中对所述查询关键字进行查询；

对得到的查询结果进行评测，并生成模型评测记录。

为了解决上述技术问题，本发明实施例还提供一种模型评测终端，包括处理器和存储器；

所述存储器用于存储的一个或者多个计算机程序；

所述处理器用于执行所述存储器中存储的一个或者多个计算机程序，以实现如上所述的模型评测方法的步骤。

为解决上述技术问题，本发明实施例还提供一种模型评测系统，包括获取模块、查询模块和评测模块；

所述获取模块用于获取待评测算法模型和待评测数据的查询关键字；

所述查询模块用于基于BERT技术，结合上下文语境分别在对应的评测数据库中对查询关键字进行查询；

所述评测模块用于对得到的查询结果进行评测，并生成模型评测记录。

为解决上述技术问题，本发明实施例还提供一种存储介质，所述存储介质存储有一个或者多个计算机程序，所述一个或者多个计算机程序可被一个或者多个处理器执行，以实现如上所述的模型评测方法的步骤。

本发明的有益效果是：在查询模型和数据时，获取关键字，在通过基于语言表达模型BERT技术，它将关键字作为整体来看待，更注重句子的整体意义，更好地理解句子中单词之间的关系和上下文语境，进而可以灵活、高效且可扩展地对模型仓库的不同模型，以及数据仓库的不同训练集数据进行更精确地检索，以解决现有检索技术存在的问题，实现更精准地获得查询结果，提高评测的工作效率，优化用户体验。

附图说明

图1为本发明一实施例提供的模型评测方法流程图；

图2为本发明另一实施例提供的模型评测方法流程图；

图3为本发明一实施例提供的模型评测终端的结构示意图；

图4为本发明一实施例提供的模型评测系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例，所举实例只用于解释本发明，并非用于限定本发明的范围。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，图1为本发明实施例提供的一种模型评测方法，该模型评测方法包括：

S101、获取待评测算法模型和待评测数据的查询关键字；

S102、基于BERT技术，结合上下文语境分别在对应的评测数据库中对查询关键字进行查询；

S103、对得到的查询结果进行评测，并生成模型评测记录。

在本实施例中，通过基于语言表达模型BERT技术，它将关键字作为整体来看待，更注重关键字的整体意义，更好地理解关键字中单词之间的关系和上下文语境，进而可以灵活、高效且可扩展地对模型仓库的不同模型，以及数据仓库的不同训练集数据进行更精确地检索，以解决现有检索技术存在的问题，实现更精准地获得查询结果，提高评测的工作效率，优化用户体验。

在本实施例中，步骤S101中，可以是分别获取待评测算法模型的查询关键字和待评测数据的查询关键字，例如用户在web端的算法模型搜索框，输入待评测的算法模型的查询关键字；用户在web端的评测数据搜索框，输入待评测数据；又例如用户在web端的算法模型搜索框，输入待评测算法模型的查询关键字，web端同时根据输入的待评测算法模型的查询关键字联想获取并显示对应的评测数据的查询关键字，由用户选择确定最终的待评测数据的查询关键字。在一些实施例中，也可以是同时获取待评测算法模型和待评测数据的查询关键字，如用户通过其他终端将待评测算法模型和待评测数据的查询关键字发送到模型评测系统或终端。

可以理解的是，本实施例中的查询关键字包括但不限于名称，如人脸识别算法，查询关键字为“人脸识别”或“人像识别”；人脸评测数据，查询关键字为“人脸评测集”。

在本实施例中，步骤S102中是分别对待评测算法模型的查询关键字和待评测数据的查询关键字进行查询时，其先后顺序在此不进行限定；具体包括：基于MLM模型对待评测算法模型查询关键字进行分词处理，获取第一特征向量；基于MLM模型对模型数据仓库中的模型描述字段进行分词处理，获取第二特征向量；根据第一特征向量和第二特征向量的相似度得到待评测算法模型的查询结果。

其中，MLM(Masked Language Model，遮蔽语言模型)就是mask(遮蔽)掉原始序列的一些token(标记)，然后让模型去预测这些被mask掉的token；基于MLM模型对查询关键字进行分词处理，结合tocken的位置信息和上下文信息，可以获得更准确的分词效果，从而可以通过MLM模型的Transformer获取第一特征向量；例如查询关键字“人像检测识别”，进行分词处理得到“人像”、“检测”和“识别”，使用位置编码给每个词加上位置信息，假设make的tocken为“人像”，则结合“人像”的位置信息和上下文信息获取第一特征向量；在本实施例中，模型数据仓库中存储有不同模型，而不同模型均对应有模型描述字段，例如人脸识别算法模型对应的模型描述字段为“人脸识别”，基于MLM模型对模型数据仓库中的各模型描述字段进行分词处理，获取各个第二特征向量。进而将第一特征向量和各第二特征向量进行对比，根据相似度的大小确定对应的待评测算法模型的查询结果。

在本实施例中，评测数据集仓库存储的是评测数据，包含多种类型的评测数据集，类型可能是有：二分类评测数据，多分类评测数据等等；每种类型的评测数据集可能有多个，目的是增加评测的全面性，例如评测数据集仓库存储了16个人脸识别领域的常用数据集，对于AI算法来说，不同的数据集上表现也不尽相同；在本实施例中，在选择评测数据集时，也要考虑应用场景和业务，如待评测算法模型是中文语音识别算法，在评测数据集仓库中筛选掉英语(或法语或葡萄牙语等)的语音数据集，选择中文的数据集作为评测数据集，因为中文和英语差异较大，即便评测了，可参考性也不强。具体的，基于MLM模型对待评测数据的查询关键字进行分词处理，获取第三特征向量；基于MLM模型对评测数据集仓库中的数据集描述字段进行分词处理，获取第四特征向量；根据第三特征向量和第四特征向量的相似度得到待评测数据的查询结果。在本实施例中，查询待评测算法模型和待评测数据的步骤相同，区别在于所查询的数据库不同，例如数据集描述字段为“语音数据集”，分词得到“语”、“音”和“数据集”，使用位置编码给每个词加上位置信息，假设make的tocken为“音”，则结合“音”的位置信息和上下文信息获取得到一个第四特征向量；进而将第三特征向量和各第四特征向量进行对比，根据相似度的大小确定对应的待评测数据集的查询结果。

在本实施例中，根据特征向量得到对应的查询结果具体包括：根据余弦相似度算法计算第一特征向量和第二特征向量的相似度；将相似度最高的第二特征向量对应的模型作为待评测算法模型的查询结果；根据余弦相似度算法计算第三特征向量和第四特征向量的相似度；将相似度最高的第四特征向量对应的评测数据集作为待评测算法模型的查询结果，评测数据集与算法模型的对应关系通过预设规则存储在评测数据库中。应当理解的是，余弦相似度算法是一个向量空间中两个向量夹角间的余弦值作为衡量两个个体之间差异的大小，余弦值接近1，夹角趋于0，表明两个向量越相似，余弦值接近于0，夹角趋于90度，表明两个向量越不相似。在一些实施例中，还可以通过欧几里得距离、皮尔森相关系数等算法计算相似度大小。

在本实施例中，预设规则指的是算法-评测数据集-评测指标之间的关联关系，算法的来源可能很多，包括自研的以及三方厂商的，数据集包括是多种类型的，每种类型可能会有很多个不同的，另外评测指标也不是单一的，根据不同的算法也有不同的指标进行评测，例如模型评测指标包括但不限于ROC曲线、AUC值、KS曲线和模型稳定度指标PSI等；为了处理这复杂的关联关系，抽取成预定义的规则，并单独存储在了评测数据库的模型评测规则数据库中，进而在查询算法时，可以确定对应的评测数据集，例如语音识别算法时，评测数据集绝不会是人像识别数据集，可根据关联关系确定为语音数据集。

在本实施例中，为了提高模型评测的准确性，在步骤S103之前，还需要显示查询结果，接收评测指令，即查询到待评测算法和待评测数据集后，可以将查询结果显示在web前端，由用户进行评测确认，用户下发评测指令后，对查询结果进行评测；当然当用户在预设时间段内未下发评测指令时，可删除之前的查询关键字，提醒用户重新输入。

在本实施例中，步骤S103中，对得到的查询结果进行评测，并同时生成模型评测记录，其中模型评测记录至少包括：当前评测时间、创建人、模型名称、数据集名称、评测报告内容和报告的下载链接；其中创建人：指的是该评测的发起人；记录评测的发起人，也是为了后期对模型评测使用情况进行评估和监测时，获得更准确的信息。该模型评测记录如下表1所示。

表1评测信息记录表

在开始进行评测时，对当前评测的时间、创建人、模型名称、模型版本号、数据集名称等评测相关信息进行记录，生成模型评测记录，其中评测包括针对待评测算法模型，依据其算法的类型，从对应的评测数据集里，选择一定量的评测数据，传递给算法的调用接口，算法根据输入的数据，返回预测的结果(或者说是返回推理的结果)，这个结果通常包含两部分，一部分是预测的标签，一部分是预测的概率值，然后根据评测数据里对应的数据的真实标签，来进行算法预测效果的评估(即预测正确的数量和预测错误的数量等)，然后基于评价指标，计算相应的一些度量值，比如准确率、召回率等。

当评测结束后，对模型评测记录的评测报告内容和报告的下载链接进行更新；即在初始化模型评测记录表时，先全部初始化；在评测的不同阶段，记录不同的信息，只有当某次评测结束后，信息才是全的。“评测报告内容”和“报告的下载地址”字段在评测结束前是存在，但具体内容是评测结束后在更新完善，保证评测信息的完整性。

为了便于理解，本实施例还提供一种模型评测方法，如图2所示，该模型评测方法包括：

S201、获取用户输入的待评测算法模型的查询关键字。

例如用户在web端的算法模型搜索框，输入待评测的算法模型的名称，如“车辆识别”或“汽车”。

S202、基于BERT技术，结合上下文语境在模型数据仓库查询待评测算法模型。

基于MLM模型对查询关键字进行分词处理，使用位置编码给每个词加上位置信息，结合tocken的位置信息和上下文信息，可以获得更准确的分词效果，从而可以通过MLM模型的Transformer获取第一特征向量；基于MLM模型对模型数据仓库中的各模型描述字段进行分词处理，获取各个第二特征向量；使用余弦相似度算法对第一特征向量和各第二特征向量计算，得到相似度最高的匹配结果(第二特征向量对应的算法模型)；返回结果至web前端。

S203、获取用户输入的待评测数据的查询关键字。

用户在web端的评测数据搜索框，输入待评测的评测数据集的名称，如“车辆评测集”。

S204、基于BERT技术，结合上下文语境在评测数据集仓库查询待评测数据集。

基于MLM模型对查询关键字进行分词处理，使用位置编码给每个词加上位置信息，结合tocken的位置信息和上下文信息，可以获得更准确的分词效果，从而可以通过MLM模型的Transformer获取第三特征向量；基于MLM模型对评测数据集仓库中的数据集描述字段，获取各个第四特征向量；使用余弦相似度算法对第三特征向量和各第四特征向量计算，得到相似度最高的匹配结果(第四特征向量对应的数据集)；返回结果至web前端。在本实施例中，待评测模型所对应的评测数据集的对应关系通过预定义规则存储在模型评测规则数据库中。

S205、接收用户对查询结果进行评测确认的评测指令。

S206、对得到的查询结果进行评测，并生成模型评测记录。

用户确认后，开始进行评测时，先对当前评测项的时间、创建人、模型名称、模型描述、数据集名称、数据集描述等相关信息进行记录，并存入模型评测记录表。

S207、当评测结束后，对模型评测记录的评测报告内容和报告的下载链接进行更新。

待评测结束，根据评测返回的状态，更新上一步存储的评测记录信息，更新的内容包括评测是否正确执行、对应的评测报告的内容，以及报告的下载链接等。

本发明实施例还提供一种模型评测系统，如图3所示，包括获取模块301、查询模块302和评测模块303；

获取模块301用于获取待评测算法模型和待评测数据的查询关键字；

查询模块302用于基于BERT技术，结合上下文语境分别在对应的评测数据库中对查询关键字进行查询；

评测模块303用于对得到的查询结果进行评测，并生成模型评测记录。

其中查询模块302具体用于基于MLM模型对待评测算法模型查询关键字进行分词处理，获取第一特征向量；基于MLM模型对模型数据仓库中的模型描述字段进行分词处理，获取第二特征向量；根据第一特征向量和第二特征向量的相似度得到待评测算法模型的查询结果。基于MLM模型对评测数据的查询关键字进行分词处理，获取第三特征向量；基于MLM模型对评测数据集仓库中的数据集描述字段进行分词处理，获取第四特征向量；根据第三特征向量和第四特征向量的相似度得到待评测数据的查询结果。根据余弦相似度算法计算第一特征向量和第二特征向量的相似度；将相似度最高的第二特征向量对应的模型作为待评测算法模型的查询结果；根据余弦相似度算法计算第三特征向量和第四特征向量的相似度；将相似度最高的第四特征向量对应的评测数据集作为待评测算法模型的查询结果，评测数据集与算法模型的对应关系通过预设规则存储在评测数据库中。

评测模块303具体用于显示查询结果，接收评测指令，对得到的查询结果进行评测，同时生成模型评测记录。模型评测记录至少包括：当前评测时间、创建人、模型名称、数据集名称、评测报告内容和报告的下载链接。

评测模块303具体还用于当评测结束后，对模型评测记录的评测报告内容和报告的下载链接进行更新。

本发明实施例还提供一种模型评测终端，如图4所示，该模型评测终端包括处理器401、存储器402；

存储器402用于存储的一个或者多个计算机程序；

处理器401用于执行存储器402中存储的一个或者多个计算机程序，以实现上述实施例中的模型评测方法的步骤，在此不再一一赘述。

本发明实施例还提供一种存储介质，存储介质存储一个或者多个计算机程序，一个或者多个计算机程序可被一个或者多个处理器执行，以实现上述各实施例中的模型评测方法的步骤，在此不再一一赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上对本发明实施例所提供的技术方案进行了详细介绍，本专利中应用了具体个例对本发明实施例的原理以及实施方式进行了阐述，以上实施例的说明只适用于帮助理解本发明实施例的原理；以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种模型评测方法，其特征在于，所述模型测评方法包括：

获取待评测算法模型和待评测数据的查询关键字；

基于语言表达模型BERT技术，结合上下文语境分别在对应的评测数据库中对所述查询关键字进行查询；

所述基于BERT技术，结合上下文语境分别在对应的评测数据库中对所述查询关键字进行查询包括：

基于MLM模型对所述待评测算法模型查询关键字进行分词处理，获取第一特征向量；

基于MLM模型对模型数据仓库中的模型描述字段进行分词处理，获取第二特征向量；

根据所述第一特征向量和第二特征向量的相似度得到所述待评测算法模型的查询结果；

对得到的查询结果进行评测，并生成模型评测记录。

2.根据权利要求1所述的模型评测方法，其特征在于，所述基于BERT技术，通过结合上下文语境分别在对应的评测数据库中对所述算法模型和评测数据进行查询包括：

基于遮蔽语言模型MLM模型对所述评测数据的查询关键字进行分词处理，获取第三特征向量；

基于MLM模型对评测数据集仓库中的数据集描述字段进行分词处理，获取第四特征向量；

根据所述第三特征向量和第四特征向量的相似度得到所述待评测数据的查询结果。

3.根据权利要求2所述的模型评测方法，其特征在于，所述根据所述第一特征向量和第二特征向量的相似度得到所述待评测算法模型的查询结果包括：

根据余弦相似度算法计算所述第一特征向量和第二特征向量的相似度；

将相似度最高的第二特征向量对应的模型作为所述待评测算法模型的查询结果；

所述根据所述第三特征向量和第四特征向量的相似度得到所述待评测数据的查询结果包括：

根据余弦相似度算法计算所述第三特征向量和第四特征向量的相似度；

将相似度最高的第四特征向量对应的评测数据集作为所述待评测算法模型的查询结果，所述评测数据集与所述算法模型的对应关系通过预设规则存储在所述评测数据库中。

4.根据权利要求3所述的模型评测方法，其特征在于，所述对得到的查询结果进行评测之前，包括：

显示所述查询结果，接收评测指令。

5.根据权利要求4所述的模型评测方法，其特征在于，所述模型评测记录至少包括：当前评测时间、创建人、模型名称、数据集名称、评测报告内容和报告的下载链接。

6.根据权利要求5所述的模型评测方法，其特征在于，生成模型评测记录之后包括：

当评测结束后，对所述模型评测记录的评测报告内容和报告的下载链接进行更新。

7.一种模型评测终端，其特征在于，所述模型评测终端包括处理器和存储器；

所述存储器用于存储的一个或者多个计算机程序；

所述处理器用于执行所述存储器中存储的一个或者多个计算机程序，以实现权利要求1至6中任一项所述的模型评测方法的步骤。

8.一种模型评测系统，其特征在于，所述模型评测系统包括获取模块、查询模块和评测模块；

9.一种存储介质，其特征在于，所述存储介质包括存储有一个或者多个计算机程序，所述一个或者多个计算机程序可被一个或者多个处理器执行，以实现如权利要求1至6中任一项所述的模型评测方法的步骤。