CN111476349A

CN111476349A - 一种模型测试方法及服务器

Info

Publication number: CN111476349A
Application number: CN202010198848.5A
Authority: CN
Inventors: 许新龙
Original assignee: Ping An International Smart City Technology Co Ltd
Current assignee: Ping An International Smart City Technology Co Ltd
Priority date: 2020-03-19
Filing date: 2020-03-19
Publication date: 2020-07-31

Abstract

本申请实施例公开了一种模型测试方法及服务器，该方法包括：接收模型测试请求；其中，所述请求携带待测模型的测试信息；根据所述请求调用模型测试服务对所述待测模型进行测试；其中，所述模型测试服务中包括多种深度学习框架；所述多种深度学习框架中不同的框架用于搭建不同的测试模型；所述不同的测试模型用于测试不同的深度学习模型；输出对所述待测模型的测试结果。采用本申请实施例实现针对性地对不同框架的模型进行测试，减少测试结果的误差。

Description

一种模型测试方法及服务器

技术领域

本发明涉及计算机技术领域，尤其涉及一种模型测试方法及服务器。

背景技术

近几年人工智能的发展越来越快，人工智能产品及应用也逐步进入到我们的生活中，给我们带来了效率或者便利。同时，各种人工智能的机器学习算法模型也层出不穷，在训练好这些模型后需要对这些模型进行测试以判断模型是否训练成功。

但是，传统的模型测试中类似的模型采用相同的测试模型来测试，没有针对性，容易导致测试结果误差大的问题。因此，如何解决模型测试中无针对的测试导致的测试结果误差大的问题本领域技术人员急需解决的技术问题。

发明内容

本申请实施例提供了一种模型测试方法及服务器，能够实现针对性地对不同框架的模型进行测试，减少测试结果的误差。

第一方面，本申请实施例提供了一种模型测试方法，该方法包括：

接收模型测试请求；其中，所述请求携带待测模型的测试信息，所述测试信息包括模型文件、测试数据集和待测模型的参数；

根据所述模型文件确定所述待测模型的的深度学习框架为第一框架；其中，所述第一框架为模型测试服务中包括的多种深度学习框架中的框架；所述多种深度学习框架中不同的框架用于搭建不同的测试模型；所述不同的测试模型用于测试不同的深度学习模型；

根据所述第一框架、所述模型文件和所述待测模型的参数搭建测试模型；

通过所述测试模型对所述测试数据集进行测试；

输出对所述待测模型的测试结果。

本申请实施例提供的模型测试服务包括多种深度学习框架，可以用于搭建各种测试模型来测试各种深度学习模型。相比于现有技术，本申请实施例能够有针对性地实现模型的测试，减少测试结果的误差。此外，本申请实施例不需要针对不同的模型编写不同的测试代码，从而提高了模型测试的效率。

结合第一方面，在第一方面的第一种可能的实施方式中，所述测试信息还包括阈值；所述通过所述测试模型对所述测试数据集进行测试，包括：

将所述测试模型对所述测试数据集中每一个测试数据计算得到的测试值与所述阈值比较；

根据所述比较结果确定所述每一个测试数据的测试标签，所述测试标签为所述测试数据最终的预测结果。

结合第一方面的第一种可能的实施方式，在第一方面的第二种可能的实施方式中，所述根据所述比较结果确定所述每一个测试数据的测试标签之后，还包括：

将所述每一个测试数据的测试标签与预设标签比较后，计算得到所述测试结果；其中，所述测试结果包括正确率、召回率以及预测错误的数据中的一项或多项。

在本申请实施例中，可以通过服务器直接根据测试标签与预设标签的比较结果计算出各项测试结果，无需人工计算，从而提高了计算效率，节省人力成本。

结合第一方面的第一种可能的实施方式或第二种可能的实施方式，在第一方面的第三种可能的实施方式中，所述模型测试服务在容器引擎中运行以实现模型的测试。

在本申请实施例中，通过用容器引擎来运行模型测试服务，保证了模型测试服务不受环境的影响，能够正常实现对模型的测试。

第二方面，本申请实施例提供了一种服务器，该服务器包括：

接收单元，用于接收模型测试请求；其中，所述请求携带待测模型的测试信息，所述测试信息包括模型文件、测试数据集和待测模型的参数；

确定单元，用于根据所述模型文件确定所述待测模型的的深度学习框架为第一框架；其中，所述第一框架为模型测试服务中包括的多种深度学习框架中的框架；所述多种深度学习框架中不同的框架用于搭建不同的测试模型；所述不同的测试模型用于测试不同的深度学习模型；

搭建单元，用于根据所述第一框架、所述模型文件和所述待测模型的参数搭建测试模型；

测试单元，用于通过所述测试模型对所述测试数据集进行测试；

输出单元，用于输出对所述待测模型的测试结果。

结合第一方面，在第一方面的第一种可能的实施方式中，所述测试信息还包括阈值；所述测试单元具体用于：

结合第一方面的第一种可能的实施方式，在第一方面的第二种可能的实施方式中，所述服务器还包括计算单元，用于在所述测试单元根据所述比较结果确定所述每一个测试数据的测试标签之后，将所述每一个测试数据的测试标签与预设标签比较后，计算得到所述测试结果；其中，所述测试结果包括正确率、召回率以及预测错误的数据中的一项或多项。

第三方面，本申请实施例提供了一种服务器，所述服务器包括处理器、存储器以及通信接口；所述存储器以及所述通信接口与所述处理器耦合，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时，所述服务器执行如上述第一方面任一项所述的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以实现上述第一方面及其可能的实施方式中任一项所述的方法。

综上所述，本申请实施例提供的模型测试服务包括多种深度学习框架，可以用于搭建各种测试模型来测试各种深度学习模型。相比于现有技术，本申请实施例能够有针对性地实现模型的测试，减少测试结果的误差。此外，本申请实施例不需要针对不同的模型编写不同的测试代码，从而提高了模型测试的效率，节省了人力物力成本。

附图说明

下面将对本申请实施例中所需要使用的附图作介绍。

图1为本申请实施例提供的一种系统架构示意图；

图2为本申请实施例提供的一种模型测试方法的流程示意图；

图3为本申请实施例提供的一种服务器的逻辑结构示意图；

图4为本申请实施例提供的一种服务器的硬件结构示意图。

具体实施方式

为了使本领域技术人员更好地理解本发明方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

下面先对本方案的系统架构进行描述。参阅图1，图1是本发明实施例提供的模型测试方法的系统构架示意图。如图1所示，系统构架可以包括一个或多个服务器100以及多个终端110(或设备)，其中：

服务器100可以包括但不限于后台服务器、组件服务器、模型测试处理服务器等，服务器100可以通过互联网与多个终端110进行通信。服务器100为终端110提供模型测试的处理服务。服务器100上需要运行有相应的服务器端程序来提供相应的模型测试处理服务，如模型测试数据库服务，数据计算、决策执行等等。

终端110可以安装并运行相关的应用(或APP)。应用是指与服务器100相对应，为客户提供本地服务的程序。这里，该本地服务可包括但不限于：接收服务器100发送的信息(例如，模型测试结果等)等等。本方案实施例中的终端110可以包括但不限于任何一种基于智能操作系统的电子产品，其可与用户通过键盘、虚拟键盘、触摸板、触摸屏以及声控设备等输入设备来进行人机交互，诸如智能手机、平板电脑、个人电脑等。其中，智能操作系统包括但不限于任何通过向移动设备提供各种移动应用来丰富设备功能的操作系统，诸如安卓(Android)、iOS^TM、Windows Phone^TM等。需要说明的是，本申请提供的模型测试方法的系统构架不限于图1所示系统架构。

基于图1给出了模型测试方法适用的系统架构，下面提供一种模型测试方法，该方法的交互流程图如图2所示。该方法可以包括但不限于以下步骤：

步骤201、终端向服务器发送模型测试请求，该请求携带有待测模型的模型文件、测试数据集、待测模型的参数和阈值。

上述待测模型的模型文件主要包括训练好的待测模型的算法和规则。

上述测试数据集就是用于测试该待测模型的数据的集合，例如，如果该待测模型为一个人脸识别模型，那么该测试数据集为包括多个人脸图像的图像集合；如果该待测模型为一个车牌号码识别模型，那么该测试数据集为包括多个车牌号码的图像集合；如果该待测模型为一个语音识别模型，那么该测试数据集为包括多个待测语音片段等等。

上述待测模型的参数主要包括上述待测模型包括的各种网络例如卷积神经网络等的权重信息。

上述阈值主要包括用于判断被测试对象是否被识别或预测正确的阈值。

在具体实施例中，终端和服务器可以通过交互式连接建立(InteractiveConnectivity Establishment,ICE)协议进行通信。当终端需要请求服务器进行模型测试时，可以通过ICE协议向服务器发送模型测试请求，请求中携带上述待测模型的模型文件、测试数据集、待测模型的参数和阈值，以便于服务器根据这些信息对待测模型进行测试。

步骤202、服务器根据上述请求调用模型测试服务对上述待测模型进行测试。

在具体实施例中，该模型测试服务中包括了多种深度学习框架，这些深度学习框架可以用于搭建各种深度学习模型，从而实现对这些深度学习模型进行测试。这些深度学习模型例如可以包括图像识别模型和语音识别模型等。

图像识别模型可以分为图像分类模型和图像检测模型两大类模型，这两大类模型又可以包括多个模型。例如图像分类模型可以包括人脸分类模型、动物分类模型等等。例如图像检测模型可以包括人脸检测模型、动物检测模型、车牌号码检测模型等等。

语音识别模型也可以分为语音分类模型和语音检测模型等，具体根据实际情况确定，本方案对此不做限制。

可选的，上述多种深度学习框架可以包括TensorFlow框架、Caffe框架、PyTorch框架和Keras框架等等。每一种框架都可以根据对应的待测模型的模型文件、测试数据集、待测模型的参数和阈值对应搭建起一个测试模型，该测试模型可以完成该待测模型的测试。

在具体的实施例中，上述模型测试服务运行在容器引擎中，即本申请实施例的模型测试在容器引擎中完成。该容器引擎可以是云计算中的Docker容器、Podman容器、Skopeo容器和Buildah容器。

Docker是一个开源的应用容器引擎，让开发者可以打包他们的应用以及依赖包到一个可移植的镜像中，然后发布到任何流行的Linux或Windows机器上，也可以实现虚拟化。容器是完全使用沙箱机制，相互之间不会有任何接口。

Podman是一个功能齐全的容器引擎，它是一个简单的无守护工具。Podman提供了一个类似Docker-CLI的命令行，可以简化从其他容器引擎的转换，并允许管理pod，容器和图像。大多数Podman命令可以作为普通用户运行，而无需额外的权限。

skopeo是一个命令行工具，用于对容器镜像和镜像库执行各种操作，支持使用ORACLE调用接口(Oracle Call Interface，OCI)镜像与原始的Docker v2镜像。

Buildah是一个命令行工具，提供了一种灵活、可脚本编程式的构建容器镜像的功能，并且其构建出的镜像符合OCI(开放容器标准)，可以与通过Docker方式构建出的镜像兼容，即通过Buildah构建出的镜像可以通过Docker与Kubernetes运行。Buildah可以轻松与脚本集成并生成构建流水线，最大优势在于构建镜像的过程不再需要运行Docker的守护进程。

可选的，服务器根据上述请求调用该模型测试服务对上述待测模型进行测试可以包括但不限于如下几个步骤：

步骤2021、服务器根据上述待测模型的模型文件确定该待测模型的的深度学习框架为第一框架。该第一框架可以是上述模型测试服务中包括的多种深度学习框架中的任意一种。

在具体实施例中，首先服务器将上述待测模型的模型文件、测试数据集、待测模型的参数和阈值加载到内存中，然后根据该模型文件确定该待测模型的的深度学习框架为第一框架。

步骤2022、服务器根据上述第一框架、待测模型的模型文件和待测模型的参数搭建测试模型对该待测模型进行测试。

在具体实施例中，在确定该待测模型的的深度学习框架为第一框架之后，服务器根据上述第一框架、该待测模型的模型文件和待测模型的参数搭建好测试模型。该测试模型实际上即为该待测模型。然后将该待测模型的测试数据集输入到该搭建好的测试模型中，逐一对测试数据集的每一个数据进行测试。例如，如果是人脸图像检测模型测试，则是对测试数据集中的每一个人脸图像逐一测试识别；如果是语音识别模型测试，则是对测试数据集中的每一个语音逐一测试识别等等。

在测试的过程中，服务器记录每一个测试数据的的测试值，例如记录每一张图像被识别为人脸的概率或记录每一个语音被识别为人的语音的概率等等。需要说明的是不同的待测模型在测试过程中记录的测试数据的测试值不同，具体测试值是什么根据待测模型想识别或想预测的事情决定，本方案对此不做限制。

可选的，服务器还记录了测试过程中服务器资源(例如中央处理器CPU、内存和/或图形处理器GPU)的占用率等情况。

在对测试数据集测试完成之后，服务器将每一个数据的测试值与上述待测模型的阈值作比较，根据比较结果确定每一个数据的测试标签。然后，可以通过将每一个数据的测试标签分别与每一个数据预先标注的标签比较确定是否识别或预测正确。为了便于理解，举例说明。

假设上述待测模型为人脸识别模型。测试数据集包括三个待测试人脸图像，分别称为图像1、图像2和图像3。图像1、图像2和图像3的预先标注的标签分别为张三、李四和王五的人脸。该模型的阈值为0.8，即只有识别出的人脸为某个人的人脸的概率大于0.8的时候，才算识别正确。

然后，根据上述方法搭建好测试模型，然后将该三个人脸图像输入到该测试模型进行测试。对图像1、图像2和图像3测试后得到的测试值分别为0.95、0.9和0.78。这表明测试模型识别图像1为张三的人脸的概率为0.95，识别图像2为李四的人脸的概率为0.9，识别图像3为王五的人脸的概率为0.78。分别将该三个测试值与阈值比较得到图像1和图像2的测试值大于阈值，而图像3的测试值小于阈值。

根据上述阈值比较结果可得图像1和图像2的测试标签分别为张三的人脸和李四的人脸，而图像3的测试标签为非王五的人脸。将这三个测试标签与各自预先标注的标签比较可知图像1和图像2识别正确，图像3识别错误。

需要说明的是，上述例子只是一个示例，具体的待测模型、测试集、阈值和标签等等都需要根据实际情况确定，本方案对此不做限制。

然后，根据上述标签比较后的结果计算得到测试结果。该测试结果可以包括上述测试模型对该测试数据集测试的准确率和召回率等。其中，准确率表示的是识别正确的数据与所有测试数据的比例，召回率表示的是所有正例数据中被分对的比例，衡量了待测模型对正例的识别能力。

同时，服务器还可以挑选出测试错误的数据作为测试结果的一项，例如识别或预测错误的图像或语音等。

可选的，服务器还可以将测试期间的服务器的资源占用率画成曲线图展现出来，以使得各项测试结果一目了然。

在其中一种可能的实施方式中，服务器在调用模型测试服务对上述待测模型进行测试之前可以包括但不限于如下几个步骤：

步骤2011、服务器接收到上述模型测试请求后，根据该请求生成第一测试任务加入到待测试任务队列中。

具体的，服务器中设置了一个待测试任务队列，该队列主要用于为等待模型测试的测试任务进行先后顺序的排列。具体的，服务器还设置有扫描程序，该扫描程序用于定期检测待测试任务队列中是否有需要测试的任务，如果有则向服务器反馈有测试任务的指示信息，服务器可以根据该指示按顺序执行待测试任务队列中的测试任务。

在具体实施例中，服务器接收到终端发送的模型测试请求后，根据该请求生成上述待测模型的测试任务，可以称为第一测试任务，然后，将该第一测试任务添加到上述待测试任务队列中等待被执行。

步骤2012、服务器将上述模型文件、测试数据集、待测模型的参数和阈值存储到预设存储位置。

另外，服务器接收到终端发送的模型测试请求后，解析该请求获取上述待测模型的模型文件、测试数据集、待测模型的参数和阈值，并将这些信息保存到预设的存储位置中等待被调用。

步骤2013、服务器检测到上述第一测试任务待执行。

在具体实施例中，在上述扫描程序检测到上述第一测试任务待执行的情况下，扫描程序向服务器发送该第一测试任务待执行的指示信息，服务器根据该指示信息开始执行该第一测试任务。

步骤203、服务器向上述终端发送模型测试完成的指示信息。

步骤204、终端根据上述指示信息向服务器发送模型测试结果获取请求。

步骤205、服务器根据上述获取请求向终端发送上述模型测试结果。

在具体实施例中，服务器测试完成后可以向终端发送测试完成的指示信息，终端接收到该指示信息后可以根据该指示信息向服务器发送模型测试结果的获取请求，服务器根据该请求向终端发送模型测试的结果，该结果可以包括上述识别的正确率、召回率、识别错误的数据以及测试期间服务器资源占用率的曲线图等等。

综上所述，本方案提出的模型测试方法中，本申请实施例提供的模型测试服务中包括了多种深度学习框架，可以根据待测模型的模型框架对应匹配搭建对应的框架的模型测试服务，从而能够实现对各种深度学习模型的模型测试，避免了算法开发人员针对不同的模型测试去写不同的测试代码，在节省人力物力的同时大大提高了测试效率，同时本方案该解决了测试结果的统计信息和图表可视化的问题，避免了测试后开发人员需要二次统计的麻烦，从而帮助开发者加快算法开发、落地和实施。

为了便于更好地实施本申请的上述方案，本申请实施例还对应提供了一种服务器300，该服务器300可以是图2中所述的服务器。下面结合附图3来进行说明：

图3所示为服务器300的逻辑结构示意图，所述服务器300包括：

接收单元301，用于接收模型测试请求；其中，上述请求携带待测模型的测试信息，上述测试信息包括模型文件、测试数据集和待测模型的参数；

确定单元302，用于根据上述模型文件确定上述待测模型的的深度学习框架为第一框架；其中，上述第一框架为模型测试服务中包括的多种深度学习框架中的框架；上述多种深度学习框架中不同的框架用于搭建不同的测试模型；上述不同的测试模型用于测试不同的深度学习模型；

搭建单元303，用于根据上述第一框架、上述模型文件和上述待测模型的参数搭建测试模型；

测试单元304，用于通过上述测试模型对上述测试数据集进行测试；

输出单元305，用于输出对上述待测模型的测试结果。

在其中一种可能的实施方式中，上述测试信息还包括阈值；测试单元304具体用于：

将上述测试模型对上述测试数据集中每一个测试数据计算得到的测试值与上述阈值比较；

根据上述比较结果确定上述每一个测试数据的测试标签，上述测试标签为上述测试数据最终的预测结果。

在其中一种可能的实施方式中，服务器300还包括计算单元，用于在测试单元304根据上述比较结果确定上述每一个测试数据的测试标签之后，将上述每一个测试数据的测试标签与预设标签比较后，计算得到上述测试结果；其中，上述测试结果包括正确率、召回率以及预测错误的数据中的一项或多项。

在其中一种可能的实施方式中，上述模型测试服务在容器引擎中运行以实现模型的测试。

图3所示的服务器300中各个单元的具体实现及有益效果可以对应参照图2所示的方法实施例及其可能的实施方式中的相应描述，此处不再赘述。

请参见图4，图4是本申请实施例提供的一种服务器400，该服务器400可以是图2中所述的服务器，该服务器400包括处理器401、存储器402和通信接口403，所述处理器401、存储器402和通信接口403通过总线404相互连接。

存储器402包括但不限于是随机存储记忆体(random access memory，RAM)、只读存储器(read-only memory，ROM)、可擦除可编程只读存储器(erasable programmableread only memory，EPROM)、或便携式只读存储器(compact disc read-only memory，CD-ROM)，该存储器402用于相关指令及数据的存储。通信接口403用于接收和发送数据。

处理器401可以是一个或多个中央处理器(central processing unit，CPU)，在处理器401是一个CPU的情况下，该CPU可以是单核CPU，也可以是多核CPU。

该服务器400中的处理器401用于读取所述存储器402中存储的程序代码，执行以下操作：

接收模型测试请求；其中，上述请求携带待测模型的测试信息，上述测试信息包括模型文件、测试数据集和待测模型的参数；

根据上述模型文件确定上述待测模型的的深度学习框架为第一框架；其中，上述第一框架为模型测试服务中包括的多种深度学习框架中的框架；上述多种深度学习框架中不同的框架用于搭建不同的测试模型；上述不同的测试模型用于测试不同的深度学习模型；

根据上述第一框架、上述模型文件和上述待测模型的参数搭建测试模型；

通过上述测试模型对上述测试数据集进行测试；

输出对上述待测模型的测试结果。

在其中一种可能的实施方式中，上述测试信息还包括阈值；上述通过上述测试模型对上述测试数据集进行测试，包括：

在其中一种可能的实施方式中，上述根据上述比较结果确定上述每一个测试数据的测试标签之后，还包括：

将上述每一个测试数据的测试标签与预设标签比较后，计算得到上述测试结果；其中，上述测试结果包括正确率、召回率以及预测错误的数据中的一项或多项。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行以实现上述图2及其可能的实施方式中所述的方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，该流程可以由计算机程序来指令相关的硬件完成，该程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法实施例的流程。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种模型测试方法，其特征在于，包括：

通过所述测试模型对所述测试数据集进行测试；

输出对所述待测模型的测试结果。

2.根据权利要求1所述的方法，其特征在于，所述测试信息还包括阈值；所述通过所述测试模型对所述测试数据集进行测试，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述比较结果确定所述每一个测试数据的测试标签之后，还包括：

4.根据权利要求1至3任一项所述的方法，其特征在于，所述模型测试服务在容器引擎中运行以实现模型的测试。

5.一种服务器，其特征在于，包括：

输出单元，用于输出对所述待测模型的测试结果。

6.根据权利要求5所述的服务器，其特征在于，所述测试信息还包括阈值；所述测试单元具体用于：

7.根据权利要求6所述的服务器，其特征在于，所述服务器还包括计算单元，用于在所述测试单元根据所述比较结果确定所述每一个测试数据的测试标签之后，

8.根据权利要求5至7任一项所述的服务器，其特征在于，所述模型测试服务在容器引擎中运行以实现模型的测试。

9.一种服务器，其特征在于，所述服务器包括处理器、存储器以及通信接口；所述存储器以及所述通信接口与所述处理器耦合，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时，所述服务器执行如权利要求1至4任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以实现权利要求1至4任意一项所述的方法。