CN116302874A

CN116302874A - 模型能力测试方法、装置、电子设备、存储介质及产品

Info

Publication number: CN116302874A
Application number: CN202310020722.2A
Authority: CN
Inventors: 王萌
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2023-01-06
Filing date: 2023-01-06
Publication date: 2023-06-23

Abstract

本发明提供的模型能力测试方法、装置、电子设备、存储介质及产品，属于深度学习技术领域，包括：接收更新请求；响应于所述更新请求，更新推理图的流量配置；基于更新后的推理图，将各个待测模型的用户流量分配至服务集，以供所述服务集利用各用户流量确定每个待测模型的能力指数。本发明提供的模型能力测试方法、装置、电子设备、存储介质及产品，通过对分流系统更新模块中的推理图的流量配置进行维护和更新，利用更新后的推理图对待测模型的用户流量进行拦截和再分配，进而利用服务集测试每个待测模型的能力指数，操作简单，能够对每个待测模型的泛化能力等性能进行快速且客观地评估。

Description

模型能力测试方法、装置、电子设备、存储介质及产品

技术领域

本发明涉及深度学习技术领域，尤其涉及模型能力测试方法、装置、电子设备、存储介质及产品。

背景技术

如何将海量的进行神经网络模型的泛化能力对比，进而选择合适的模型，是非常困难的。而即使选定了模型，在对模型进行多个版本的修改、训练之后，还需面对如何对比多个版本模型的泛化能力的问题。

目前，主要利用由海量数据组成的数据集，对每个模型进行测试，进而得到每个模型的泛化能力排名。

然而，上述方法操作繁琐，耗时较长，且测试结果并不客观。

发明内容

本发明提供的模型能力测试方法、装置、电子设备、存储介质及产品，用以解决现有技术中操作繁琐、耗时较长且测试结果并不客观的缺陷，实现操作简单，能够对每个待测模型的泛化能力等性能进行快速且客观地评估。

本发明提供一种模型能力测试方法，包括：

接收更新请求；

响应于所述更新请求，读取所述更新请求的参数配置信息，以确定所述更新请求的请求类型；所述请求类型，包括：流量分配、服务全量和流量回滚；

在确定所述请求类型为流量分配的情况下，根据所述参数配置信息，确定流量分配方案；

在确定所述流量分配方案为平均分配的情况下，从所述参数配置信息中读取主线桶的总流量和测试桶的总流量，以及测试桶的数量；

将所述主线桶的总流量确定为所述主线桶的目标流量，并根据所述测试桶的总流量和所述测试桶的数量，确定每个测试桶的目标流量；

在确定所述流量分配方案为自定义分配的情况下，从所述参数配置信息中读取主线桶的目标流量和测试桶的目标流量；

根据所述主线桶的目标流量和测试桶的目标流量，更新推理图的流量配置；

基于更新后的推理图，将各个待测模型的用户流量分配至服务集，以供所述服务集利用各用户流量确定每个待测模型的能力指数。

根据本发明提供的一种模型能力测试方法，所述根据所述主线桶的目标流量和测试桶的目标流量，更新推理图的流量配置，包括：

在确定所述参数配置信息中未设置滚动发布的情况下，利用所述主线桶的目标流量和所述测试桶的目标流量，对所述推理图的流量配置进行更新；

在确定所述参数配置信息中设置滚动发布的情况下，从所述参数配置信息中读取时间间隔和步长；

根据所述主线桶的目标流量、所述测试桶的目标流量、所述时间间隔和所述步长，计算滚动发布策略；

将所述滚动发布策略写入至数据库；

利用滚动发布模块从所述数据库中调取所述滚动发布策略；

在达到更新时间的情况下，读取所述滚动发布策略中的流量配置信息；

利用所述流量配置信息，对所述推理图的流量配置进行更新。

根据本发明提供的一种模型能力测试方法，在确定所述请求类型为服务全量的情况下，在所述确定所述更新请求的请求类型之后，还包括：

从所述参数配置信息中读取第一目标测试桶的第一服务信息，并将所述第一目标测试桶的流量设置为100％，将除所述第一目标测试桶之外的测试桶和主线桶的流量清零；

基于所述第一服务信息，利用服务集管理模块对所述服务集的主线服务进行更新；

确定更新后的主线服务为所述第一目标测试桶的全量服务，以更新所述推理图的流量配置。

根据本发明提供的一种模型能力测试方法，在确定所述请求类型为流量回滚的情况下，在所述确定所述更新请求的请求类型之后，还包括：

从所述参数配置信息中读取第二目标测试桶的第二服务信息，并读取所述目标测试桶的流量信息；

基于所述第二服务信息，将所述目标测试桶的流量清零，并将所述流量信息添加至主线桶，以更新所述推理图的流量配置。

根据本发明提供的一种模型能力测试方法，所述能力指数包括召回率和精确度，所述基于更新后的推理图，将各个待测模型的用户流量分配至服务集，以供所述服务集利用各用户流量确定每个待测模型的能力指数，包括：

基于更新后的推理图，将各个待测模型的用户流量分配至服务集；

利用所述服务集对至少一个用户流量进行测试，获取与每个用户流量相对应的待测模型的召回率和精确度。

根据本发明提供的一种模型能力测试方法，所述读取所述更新请求的参数配置信息，以确定所述更新请求的请求类型，包括：

解析所述参数配置信息中的参与服务信息；

读取服务集管理模块的管理记录；

在基于所述管理记录，确定所述参与服务信息符合预设条件的情况下，确定所述更新请求的请求类型。

本发明还提供一种模型能力测试装置，包括：

接收模块，用于接收更新请求；

响应模块，用于响应于所述更新请求，读取所述更新请求的参数配置信息，以确定所述更新请求的请求类型；所述请求类型，包括：流量分配、服务全量和流量回滚；

第一确定模块，用于在确定所述请求类型为流量分配的情况下，根据所述参数配置信息，确定流量分配方案；

第一读取模块，用于在确定所述流量分配方案为平均分配的情况下，从所述参数配置信息中读取主线桶的总流量和测试桶的总流量，以及测试桶的数量；

第二确定模块，用于将所述主线桶的总流量确定为所述主线桶的目标流量，并根据所述测试桶的总流量和所述测试桶的数量，确定每个测试桶的目标流量；

第二读取模块，用于在确定所述流量分配方案为自定义分配的情况下，从所述参数配置信息中读取主线桶的目标流量和测试桶的目标流量；

更新模块，用于根据所述主线桶的目标流量和测试桶的目标流量，更新推理图的流量配置；

分配模块，用于基于更新后的推理图，将各个待测模型的用户流量分配至服务集，以供所述服务集利用各用户流量确定每个待测模型的能力指数。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述模型能力测试方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述模型能力测试方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述模型能力测试方法。

本发明提供的模型能力测试方法、装置、电子设备、存储介质及产品，通过对分流系统更新模块中的推理图的流量配置进行维护和更新，利用更新后的推理图对待测模型的用户流量进行拦截和再分配，进而利用服务集测试每个待测模型的能力指数，操作简单，能够对每个待测模型的泛化能力等性能进行快速且客观地评估。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的模型能力测试方法的流程示意图之一；

图2是本发明提供的推理图创建/更新方法的流程示意图；

图3是本发明提供的模型能力测试方法的流程示意图之二；

图4是本发明提供的模型能力测试装置的结构示意图；

图5是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

近年来深度学习发展迅速，各领域涌现多种多样的深度学习模型，例如计算机视觉领域的Faster RCNN、YOLO、ResNet等，自然语言处理领域的Bert、XLNet、Transformer等。

A/B测试系统是采用数据驱动的方式，利用线上产生的用户数据，来决定哪一个服务表现较好。通常A/B测试的流程是在线上流量中取出一小部分，随机地分给服务A和服务B，再结合一些统计方法，得到对于两个服务相对效果的准确估计。A/B测试系统通常也支持多个服务进行对比，即A/B/n测试。

A/B测试系统中的分流流程，其目的是将线上用户按照固定的流量比例分配到不同桶中，并且保持这种桶的分配关系，以此来对照验证相关的指标是否有所好转。

下面结合图1至图5描述本发明的实施例所提供的模型能力测试方法、装置、电子设备、存储介质及产品。

本发明实施例提供的模型能力测试方法，执行主体可以为电子设备或者电子设备中能够实现该模型能力测试方法的软件或功能模块或功能实体，本发明实施例中电子设备包括但不限于分流系统更新模块。需要说明的是，上述执行主体并不构成对本发明的限制。

推理图(AIS-Inference Graph)具有流量划分功能，服务提供方可以设置参与服务以及每个参与服务的流量，然后创建推理图，并且后续有更新推理图的需求时可更新推理图，进而基于更新后的推理图，对模型能力进行测试。

然而，这种测试方式需要手动设置每个参与服务的流量，操作繁琐且并不客观。

图1是本发明提供的模型能力测试方法的流程示意图之一，如图1所示，包括但不限于以下步骤：

首先，在步骤S1中，接收更新请求。

更新请求可以是由服务提供方发出的，以对分流系统更新模块中的推理图进行更新。服务提供方可以创建服务，以及对分流系统更新模块进行更新。

更新请求携带有对分流系统更新模块中的推理图进行更新的参数配置信息。

进一步地，在步骤S2中，响应于所述更新请求，读取所述更新请求的参数配置信息，以确定所述更新请求的请求类型；所述请求类型，包括：流量分配、服务全量和流量回滚。

分流系统更新模块对接收的更新请求进行响应，并根据更新请求所携带的配置信息，对推理图进行流量配置更新。

AIStattion推理平台是一个基于Kubernetes的推理服务软件，推理图(AIS-Inference Graph)是AIStation推理平台自研软件，用于推理服务的编排，它可以将服务连接成拓扑图进行执行。AIS-Inference Graph提供了基本的流量划分功能，将AIS-Inference Graph用于推理平台中的A/B测试的分流系统中，可有效解决推理服务的多种、多版本模型的质量对比问题。

参数配置信息可以包括：参与服务信息和请求类型。

分流系统更新模块响应于更新请求，从更新请求中读取更新请求携带的参数配置信息，可以得到请求类型。不同的请求类型对应不同的参数配置信息，更新方法是根据参数配置信息中的设定所确定的。

利用请求类型所对应的参数配置信息，对推理图的流量配置进行更新，通过响应服务提供方的更新请求，进而对分流系统更新模块中的推理图的流量配置进行更新，进而为模型的性能分析提供基础。

可选地，所述读取所述更新请求的参数配置信息，以确定所述更新请求的请求类型，包括：

解析所述参数配置信息中的参与服务信息；

读取服务集管理模块的管理记录；

参与服务信息是由服务提供方设置的，与请求类型相关。若请求类型为流量分配，则参与服务信息包括流量分配方案，以及需要参与流量分配的服务名称、主线服务和测试服务；若请求类型为服务全量，则参与服务信息包括需要服务全量的测试桶的服务名称、第一服务信息；若请求类型为流量回滚，则参与服务信息包括需要流量回滚的服务名称和第二服务信息。第二服务信息包括：服务名称和流量信息P。

具体地，解析参数配置信息中的参与服务信息，读取服务集管理模块的管理记录，以根据管理记录对参与服务信息进行服务关系检查，检查内容可以包括：

(1)参与服务信息中的每个服务均属于同一个服务集；

(2)参与服务信息包含主线服务；

(3)在更新请求为流量回滚或服务全量的情况下，验证需要回滚或全量的服务属于测试服务。

因此，在更新请求为流量分配的情况下，预设条件可以包括：参与服务信息中的每个服务均属于同一个服务集，且参与服务信息包含主线服务；在更新请求为流量回滚或服务全量的情况下，预设条件可以包括：参与服务信息中的每个服务均属于同一个服务集，且参与服务信息包含主线服务，以及回滚的服务属于测试服务。

在确定参与服务信息符合预设条件的情况下，判定更新请求有效，进而执行下一步操作；在确定参与服务信息不符合预设条件的情况下，判定更新请求无效，生成无效告警，以向服务提供方进行无效反馈。

根据本发明提供的模型能力测试方法，通过对服务提供方设置的参与服务信息进行分析校验，能够有效保证推理图的流量配置更新的正常进行，提高了更新过程的安全性。

进一步地，在步骤S3中，在确定所述请求类型为流量分配的情况下，根据所述参数配置信息，确定流量分配方案；

若请求类型为流量分配，则参数配置信息还包括：主线桶总流量、时间间隔、步长、流量分配方案；流量分配方案，包括：自定义分配和平均分配；

若请求类型为服务全量，则参数配置信息还包括：需要全量的测试桶的第一服务；

若请求类型为流量回滚，则参数配置信息还包括：需要流量回滚的测试桶的第二服务。

在确定所述请求类型为流量分配的情况下，确定参数配置信息中的流量分配方案；

进一步地，在步骤S4中，在确定所述流量分配方案为平均分配的情况下，从所述参数配置信息中读取主线桶的总流量和测试桶的总流量，以及测试桶的数量；

当流量分配方案为平均分配时，从参数配置信息中读取主线桶的总流量和测试桶的总流量，以及测试桶的数量；

进一步地，在步骤S5中，将所述主线桶的总流量确定为所述主线桶的目标流量，并根据所述测试桶的总流量和所述测试桶的数量，确定每个测试桶的目标流量；

由于每个桶只包含一个服务，且只有一个主线桶，故主线桶的目标流量即为参数配置信息中的主线桶的总流量；

其中，当测试桶的总流量无法被测试桶的数量整除时，先分别将测试桶的总流量除以被测试桶的数量的商加入每一个测试桶中，再将余数随机加入到一个测试桶中。

进一步地，在步骤S6中，在确定所述流量分配方案为自定义分配的情况下，从所述参数配置信息中读取主线桶的目标流量和测试桶的目标流量；

当流量分配方案为自定义分配时，则从参数配置信息中读取用户自定义配置主线桶的流量和每一个测试桶的流量，作为每个测试桶需要配置的目标流量。

进一步地，在步骤S7中，根据所述主线桶的目标流量和测试桶的目标流量，更新推理图的流量配置。

根据所述主线桶的目标流量和测试桶的目标流量，进而对分流系统更新模块中的推理图的流量配置进行维护和更新，进而为模型的性能分析提供基础。

可选地，所述根据所述主线桶的目标流量和测试桶的目标流量，更新推理图的流量配置，包括：

将所述滚动发布策略写入至数据库；

利用滚动发布模块从所述数据库中调取所述滚动发布策略；

参数配置信息中还可以设置有滚动发布。

滚动发布策略的计算方式为：每隔预设时长，将步长大小的流量随机滚动到测试桶中，直到主线桶和测试桶中的流量均达到各自对应的目标流量。

首先判断参数配置信息中是否设置了滚动发布，在确定参数配置信息中未设置滚动发布的情况下，直接读取上一流程计算出的主线桶的目标流量和测试桶的目标流量，对推理图的流量配置进行更新；

在确定参数配置信息中设置滚动发布的情况下，从参数配置信息中读取时间间隔和步长，并读取上一流程中计算出的主线桶的目标流量和测试桶的目标流量；

根据主线桶的目标流量、测试桶的目标流量、时间间隔和步长，计算滚动发布策略；

将所述滚动发布策略写入至数据库；

利用滚动发布模块从所述数据库中调取所述滚动发布策略；

在达到更新时间的情况下，读取所述滚动发布策略中的流量配置信息；更新时间可以根据服务提供方的需求灵活设置，相邻更新时间的间隔时长与分流系统更新模块的设置的时延相关，间隔时长越短，时延越短。

在未达到更新时间的情况下，重新从数据库中调取滚动发布策略，直至达到更新时间，读取所述滚动发布策略中的流量配置信息。

利用所述流量配置信息，对所述推理图的流量配置进行更新。滚动发布模块是一个常驻的循环程序，在检测到数据库中滚动发布策略到达更新时间时，根据滚动发布策略中的流量配置信息，以更新推理图流量配置，并重复读取数据库中滚动发布策略，以实现对推理图流量配置的实时更新。

根据本发明提供的模型能力测试方法，通过计算滚动发布策略，进而利用滚动发布模块对推理图流量配置进行实时更新，从而改变推理图的流量划分方法，进而为模型的性能分析提供基础。

可选地，在确定所述请求类型为服务全量的情况下，在所述确定所述更新请求的请求类型之后，还包括：

第一目标测试桶为需要进行服务全量的测试桶，第一服务信息包括：服务名称和流量信息。

服务提供方在参数配置信息中设置参与服务，发送需要进行流量回滚类型的更新请求；分流系统更新模块解析更新请求的参数配置信息，从参数配置信息中读取需要服务全量的第一目标测试桶的第一服务信息，并将该桶的流量设置为100％，将其他桶的流量设置为0％，然后更新服务集的主线服务为该需要全量的服务，确定更新后的主线服务为所述第一目标测试桶的全量服务，最后更新推理图流量配置。

根据本发明提供的模型能力测试方法，通过对需要对服务全量的测试桶和其他桶的流量进行设置，进而更新推理图的流量配置，为模型的性能分析提供基础。

可选地，在确定所述请求类型为流量回滚的情况下，在所述确定所述更新请求的请求类型之后，还包括：

第二目标测试桶为需要进行流量回滚的测试桶。

服务提供方在参数配置信息中设置参与服务，发送需要进行服务全量类型的更新请求；分流系统更新模块解析更新请求的参数配置信息，从参数配置信息中读取需要流量回滚的测试桶的服务信息，读取该桶的流量信息P，并将该桶的流量设置为0％，将主线桶的流量加上流量信息P，最后更新推理图流量配置。

根据本发明提供的模型能力测试方法，通过对需要对流量回滚的测试桶和其他桶的流量进行设置，进而更新推理图的流量配置，为模型的性能分析提供基础。

进一步地，在步骤S8中，基于更新后的推理图，将各个待测模型的用户流量分配至服务集，以供所述服务集利用各用户流量确定每个待测模型的能力指数。

待测模型为需要进行能力测试的神经网络模型，用户流量为待测模型在部署后在使用过程中产生的流量。

更新后的推理图可以对每个待测模型的用户流量进行拦截，然后再分配至服务集。服务集用于维护、管理模型层的所有的推理服务。

服务集管理模块可以利用服务集，调用待测模型的用户流量，并对调用的用户流量进行测试，进而得到每个待测模型的能力指数，待测模型的能力指数用于表征模型的性能。

待测模型的能力指数可以包括该模型的召回率和精度，还可以包括模型的服务水平目标(Service Level Object，SLO)值和服务水平协议(Service Level Agreement，SLA)值。

本发明提供的模型能力测试方法，通过对分流系统更新模块中的推理图的流量配置进行维护和更新，利用更新后的推理图对待测模型的用户流量进行拦截和再分配，进而利用服务集测试每个待测模型的能力指数，操作简单，能够对每个待测模型的泛化能力等性能进行快速且客观地评估。

可选地，所述能力指数包括召回率和精确度，所述基于更新后的推理图，将各个待测模型的用户流量分配至服务集，以供所述服务集利用各用户流量确定每个待测模型的能力指数，包括：

更新后的推理图可以对每个待测模型的用户流量进行拦截，然后再分配至服务集。

服务集管理模块可以利用服务集，调用各待测模型的用户流量，并对各用户流量进行测试，根据模型对用户请求的响应数据和人工标注的对请求的响应数据，采用精确度和召回率公式，实时计算历史用户请求流量的精确度和召回率，从而可以得到每个待测模型的召回率和精确度。

根据本发明提供的模型能力测试方法，通过待测模型的用户流量进行拦截和再分配，进而对比多种类、多版本模型在线服务时的泛化能力和服务质量。

图2是本发明提供的推理图创建/更新方法的流程示意图，如图2所示，包括：

服务提供方在需要更新推理图时，AIStattion推理平台读取推理图中参与服务的流量，以创建/更新推理图流量配置。

然而，图2中的AIS-Inference Graph离A/B测试的分流系统还有很远，其无法提供服务集管理、滚动发布、流量平均分配、服务全量、流量回滚等A/B测试系统的功能。

图3是本发明提供的模型能力测试方法的流程示意图之二，如图3所示，图3在图2的基础上增加了服务集管理模块和分流系统更新模块，分流系统更新模块中包含滚动发布模块。

其中，服务集管理模块，负责参与A/B测试的服务的管理，其功能包括主线服务和测试服务的创建、删除，以及维护主线服务和测试服务的从属关系。服务集里只能有一个主线服务，可以有多个测试服务。

分流系统更新模块利用服务集中的服务，创建/更新分流策略，当用户流量到来时，根据分流策略来决定流量流到哪个桶里，其中“桶”在这里指服务。

分流系统更新模块中的功能包括：

服务提供方发出更新分流系统的更新请求，分流系统更新模块接收到该更新请求后，读取更新请求中的参数配置信息。

解析参数配置信息中的参与服务信息，然后对参与服务信息进行服务集关系检查，参与服务信息包括：流量信息P和服务名称。

服务集关系检查的内容包括：

首先，读取服务集管理模块的管理记录，验证参与服务信息中各服务是否均属于同一个服务集合；一个服务集包含多个服务集合；

其次，验证参与服务信息中是否包含主线服务；

接着，在根据参数配置信息，确定更新请求的请求类型为流量回滚时，验证需要回滚的服务是否为测试服务；更新请求的请求类型有三种，包括：流量分配、服务全量和流量回滚。

第一方面，当更新请求的请求类型为流量分配时，判断更新请求中的参数配置信息的流量分配方案，流量分配方案包括平均分配和自定义分配。

其中，当无法整除时，先分别将商加入每一个测试桶中，再将余数随机加入一个测试桶中。

当流量分配方案为自定义分配时，则从参数配置信息中读取用户自定义配置主线桶的流量和每一个测试桶的流量，作为每个桶所需要配置的目标流量。当确定好每个桶的目标流量后，进入滚动发布步骤。

首先判断参数配置信息中是否设置了滚动发布，若没有设置滚动发布，则直接读取上一流程计算出的主线桶的目标流量和测试桶的目标流量，然后更新分流系统更新模块中的推理图。

如果设置了滚动发布，则按以下步骤更新推理图流量配置：

从参数配置信息中读取时间间隔和步长，并读取上一流程中计算出的主线桶的目标流量和测试桶的目标流量；

根据时间间隔、步长、各目标流量计算滚动发布策略，然后将滚动发布策略写入数据库；其中，滚动发布策略的计算方式为：每隔预设时长，将步长大小的流量随机滚动到测试桶中，直到主线桶和测试桶中的流量均达到各自对应的目标流量。

滚动发布模块是一个常驻的循环程序，在检测到数据库中滚动发布策略到达更新时间时，根据滚动发布策略中的流量配置信息，以更新推理图流量配置，并重复读取数据库中滚动发布策略，以实现对推理图流量配置的实时更新。

如果参数配置信息中未设置滚动发布，则直接根据各个桶的目标流量，更新推理图流量配置。

第二方面，当请求类型为服务全量时，则从参数配置信息中读取需要全量的第一目标测试桶的第一服务信息，并将该第一测试桶的流量设置为100％，将其他测试桶和主线桶的流量均设置为0％，然后利用第一服务信息，控制服务集管理模块更新服务集的主线服务为该需要全量的第一目标测试桶的全量服务，在此基础上更新推理图流量配置。

第三方面，当请求类型为流量回滚时，则从参数配置信息中读取第二目标测试桶的第二服务信息，并读取该第二目标测试桶的流量信息P，并将该第二目标测试桶的流量设置为0％，将主线桶的流量加上流量信息P，在此基础上更新推理图流量配置。

此外，在更新推理图流量配置的同时，分流系统更新模块还需要与外部维持交互关系。分流系统更新模块中推理图使用服务集管理中的服务组成推理图，服务集管理中的服务集关系根据分流系统更新模块中推理图的服务配置信息来维护。

根据本发明提供的模型能力测试方法，通过将AIS-Inference Graph用于推理平台中的A/B测试的分流系统中，从而方便服务提供方使用A/B测试系统对比多种类、多版本模型在线服务时的泛化能力和服务质量。

在需要对推理图进行更新时，服务提供方构建主线服务，然后创建多个测试服务，每个测试服务对应一个待测模型。

服务提供方在参数配置信息中设置参与服务集、主线桶的总流量、测试桶的总流量、时间间隔、步长，发送需要进行平均分配和滚动发布的流量分配类型的请求；分流系统更新模块解析更新请求的参数配置信息，进入平均分配流程来设置每个桶的目标流量，然后进入滚动发布流程设置滚动发布策略；滚动发布模块循环读取数据库，当策略到达更新时间时，更新推理图流量配置。

服务提供方在参数配置信息中设置参与服务，发送需要进行流量回滚类型的更新请求；分流系统更新模块解析更新请求的参数配置信息，从参数配置信息中读取需要服务全量的测试桶的服务信息，并将该桶的流量设置为100％，将其他桶的流量设置为0％，然后更新服务集的主线服务为该需要全量的服务，确定更新后的主线服务为所述第一目标测试桶的全量服务，最后更新推理图流量配置；

服务提供方在参数配置信息中设置参与服务，发送需要进行服务全量类型的更新请求；分流系统更新模块解析更新请求的参数配置信息，从参数配置信息中读取需要流量回滚的测试桶的服务信息，读取该桶的流量信息P，并将该桶的流量设置为0％，将主线桶的流量加上P，最后更新推理图流量配置。

下面对本发明提供的模型能力测试装置进行描述，下文描述的模型能力测试装置与上文描述的模型能力测试方法可相互对应参照。

图4是本发明提供的模型能力测试装置的结构示意图，如图4所示，包括：

接收模块401，用于接收更新请求；

响应模块402，用于响应于所述更新请求，读取所述更新请求的参数配置信息，以确定所述更新请求的请求类型；所述请求类型，包括：流量分配、服务全量和流量回滚；

第一确定模块403，用于在确定所述请求类型为流量分配的情况下，根据所述参数配置信息，确定流量分配方案；

第一读取模块404，用于在确定所述流量分配方案为平均分配的情况下，从所述参数配置信息中读取主线桶的总流量和测试桶的总流量，以及测试桶的数量；

第二确定模块405，用于将所述主线桶的总流量确定为所述主线桶的目标流量，并根据所述测试桶的总流量和所述测试桶的数量，确定每个测试桶的目标流量；

第二读取模块406，用于在确定所述流量分配方案为自定义分配的情况下，从所述参数配置信息中读取主线桶的目标流量和测试桶的目标流量；

更新模块407，用于根据所述主线桶的目标流量和测试桶的目标流量，更新推理图的流量配置；

分配模块408，用于基于更新后的推理图，将各个待测模型的用户流量分配至服务集，以供所述服务集利用各用户流量确定每个待测模型的能力指数。

在装置运行的过程中，接收模块401接收更新请求；更新模块402响应于所述更新请求，读取所述更新请求的参数配置信息，以确定所述更新请求的请求类型；所述请求类型，包括：流量分配、服务全量和流量回滚；第一确定模块403在确定所述请求类型为流量分配的情况下，根据所述参数配置信息，确定流量分配方案；第一读取模块404在确定所述流量分配方案为平均分配的情况下，从所述参数配置信息中读取主线桶的总流量和测试桶的总流量，以及测试桶的数量；第二确定模块405将所述主线桶的总流量确定为所述主线桶的目标流量，并根据所述测试桶的总流量和所述测试桶的数量，确定每个测试桶的目标流量；第二读取模块406在确定所述流量分配方案为自定义分配的情况下，从所述参数配置信息中读取主线桶的目标流量和测试桶的目标流量；更新模块407根据所述主线桶的目标流量和测试桶的目标流量，更新推理图的流量配置；分配模块408基于更新后的推理图，将各个待测模型的用户流量分配至服务集，以供所述服务集利用各用户流量确定每个待测模型的能力指数。

本发明提供的模型能力测试装置，通过对分流系统更新模块中的推理图的流量配置进行维护和更新，利用更新后的推理图对待测模型的用户流量进行拦截和再分配，进而利用服务集测试每个待测模型的能力指数，操作简单，能够对每个待测模型的泛化能力等性能进行快速且客观地评估。

图5是本发明提供的电子设备的结构示意图，如图5所示，该电子设备可以包括：处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540，其中，处理器510，通信接口520，存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令，以执行模型能力测试方法，该方法包括：接收更新请求；响应于所述更新请求，读取所述更新请求的参数配置信息，以确定所述更新请求的请求类型；所述请求类型，包括：流量分配、服务全量和流量回滚；在确定所述请求类型为流量分配的情况下，根据所述参数配置信息，确定流量分配方案；在确定所述流量分配方案为平均分配的情况下，从所述参数配置信息中读取主线桶的总流量和测试桶的总流量，以及测试桶的数量；将所述主线桶的总流量确定为所述主线桶的目标流量，并根据所述测试桶的总流量和所述测试桶的数量，确定每个测试桶的目标流量；在确定所述流量分配方案为自定义分配的情况下，从所述参数配置信息中读取主线桶的目标流量和测试桶的目标流量；根据所述主线桶的目标流量和测试桶的目标流量，更新推理图的流量配置；基于更新后的推理图，将各个待测模型的用户流量分配至服务集，以供所述服务集利用各用户流量确定每个待测模型的能力指数。

此外，上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的模型能力测试方法，该方法包括：接收更新请求；响应于所述更新请求，读取所述更新请求的参数配置信息，以确定所述更新请求的请求类型；所述请求类型，包括：流量分配、服务全量和流量回滚；在确定所述请求类型为流量分配的情况下，根据所述参数配置信息，确定流量分配方案；在确定所述流量分配方案为平均分配的情况下，从所述参数配置信息中读取主线桶的总流量和测试桶的总流量，以及测试桶的数量；将所述主线桶的总流量确定为所述主线桶的目标流量，并根据所述测试桶的总流量和所述测试桶的数量，确定每个测试桶的目标流量；在确定所述流量分配方案为自定义分配的情况下，从所述参数配置信息中读取主线桶的目标流量和测试桶的目标流量；根据所述主线桶的目标流量和测试桶的目标流量，更新推理图的流量配置；基于更新后的推理图，将各个待测模型的用户流量分配至服务集，以供所述服务集利用各用户流量确定每个待测模型的能力指数。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的模型能力测试方法，该方法包括：接收更新请求；响应于所述更新请求，读取所述更新请求的参数配置信息，以确定所述更新请求的请求类型；所述请求类型，包括：流量分配、服务全量和流量回滚；在确定所述请求类型为流量分配的情况下，根据所述参数配置信息，确定流量分配方案；在确定所述流量分配方案为平均分配的情况下，从所述参数配置信息中读取主线桶的总流量和测试桶的总流量，以及测试桶的数量；将所述主线桶的总流量确定为所述主线桶的目标流量，并根据所述测试桶的总流量和所述测试桶的数量，确定每个测试桶的目标流量；在确定所述流量分配方案为自定义分配的情况下，从所述参数配置信息中读取主线桶的目标流量和测试桶的目标流量；根据所述主线桶的目标流量和测试桶的目标流量，更新推理图的流量配置；基于更新后的推理图，将各个待测模型的用户流量分配至服务集，以供所述服务集利用各用户流量确定每个待测模型的能力指数。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种模型能力测试方法，其特征在于，包括：

接收更新请求；

2.根据权利要求1所述的模型能力测试方法，其特征在于，所述根据所述主线桶的目标流量和测试桶的目标流量，更新推理图的流量配置，包括：

将所述滚动发布策略写入至数据库；

利用滚动发布模块从所述数据库中调取所述滚动发布策略；

3.根据权利要求1所述的模型能力测试方法，其特征在于，在确定所述请求类型为服务全量的情况下，在所述确定所述更新请求的请求类型之后，还包括：

4.根据权利要求1所述的模型能力测试方法，其特征在于，在确定所述请求类型为流量回滚的情况下，在所述确定所述更新请求的请求类型之后，还包括：

5.根据权利要求1-4中任一项所述的模型能力测试方法，其特征在于，所述能力指数包括召回率和精确度，所述基于更新后的推理图，将各个待测模型的用户流量分配至服务集，以供所述服务集利用各用户流量确定每个待测模型的能力指数，包括：

6.根据权利要求1-4中任一项所述的模型能力测试方法，其特征在于，所述读取所述更新请求的参数配置信息，以确定所述更新请求的请求类型，包括：

解析所述参数配置信息中的参与服务信息；

读取服务集管理模块的管理记录；

7.一种模型能力测试装置，其特征在于，包括：

接收模块，用于接收更新请求；

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-6任一项所述模型能力测试方法。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-6任一项所述模型能力测试方法。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-6任一项所述模型能力测试方法。