CN114911492B

CN114911492B - 推理服务部署方法、装置、设备以及存储介质

Info

Publication number: CN114911492B
Application number: CN202210540196.8A
Authority: CN
Inventors: 袁正雄; 褚振方; 李金麒; 胡鸣人; 王国彬; 罗阳; 黄悦; 钱正宇; 施恩
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-05-17
Filing date: 2022-05-17
Publication date: 2024-03-08
Anticipated expiration: 2042-05-17
Also published as: CN114911492A; EP4280051A1; EP4280051B1; US20230376726A1

Abstract

本公开提供了一种推理服务部署方法、装置、设备以及存储介质，涉及人工智能技术领域，尤其涉及机器学习和推理服务技术领域。具体实现方案为：一种推理服务部署方法，包括：获取部署端的运行环境的性能信息；根据该部署端的运行环境的性能信息，从模型的多个候选版本的推理服务中选择目标版本的推理服务；将该目标版本的推理服务部署到该部署端。本公开可以提高推理服务的部署效率。

Description

推理服务部署方法、装置、设备以及存储介质

技术领域

本公开涉及人工智能技术领域，尤其涉及机器学习和推理服务技术领域。

背景技术

作为人工智能(Artificial Intelligence，AI)应用的重要环节，AI推理服务已逐渐成为AI领域内的重要组件设施。AI推理服务基于特定的服务框架及模型训练产生的模型构建而成，能够支持异构算力之上的模型推理，高效地处理来自外部的表格、图像、文本、语音、视频等富媒体输入。当前的AI推理服务，在研发与交付等各个环节大量采用人工，例如在不同环节需要研发人员、测试人员、运维人员、使用人员等介入，因此人力成本高，整体效率低。

发明内容

本公开提供了一种推理服务部署方法、装置、设备以及存储介质。

根据本公开的一方面，提供了一种推理服务部署方法，包括：

获取部署端的运行环境的性能信息；

根据该部署端的运行环境的性能信息，从模型的多个候选版本的推理服务中选择目标版本的推理服务；

将该目标版本的推理服务部署到该部署端。

根据本公开的另一方面，提供了一种推理服务部署装置，包括：

获取模块，用于获取部署端的运行环境的性能信息；

选择模块，用于根据该部署端的运行环境的性能信息，从模型的多个候选版本的推理服务中选择目标版本的推理服务；

部署模块，用于将该目标版本的推理服务部署到该部署端。

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与该至少一个处理器通信连接的存储器；其中，

该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行本公开中任一实施例的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，该计算机指令用于使该计算机执行根据本公开中任一实施例的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现根据本公开中任一实施例的方法。

在本公开实施例中，可以基于部署端的运行环境的性能信息，从模型的候选版本的推理服务中选择目标版本的推理服务，自动快速地部署模型的推理服务，提高推理服务的部署效率。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开一实施例的推理服务部署方法的流程示意图；

图2是根据本公开另一实施例的推理服务部署方法的流程示意图；

图3是根据本公开另一实施例的推理服务部署方法的流程示意图；

图4是根据本公开另一实施例的推理服务部署方法的流程示意图；

图5是根据本公开一实施例的推理服务部署装置的流程示意图；

图6是根据本公开另一实施例的推理服务部署装置的流程示意图；

图7是根据本公开实施例的推理服务部署方法的应用场景的示意图；

图8是用来实现本公开实施例的推理服务部署方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本公开一实施例的推理服务部署方法的流程示意图。该方法可以包括：

S101、获取部署端的运行环境的性能信息；

S102、根据该部署端的运行环境的性能信息，从模型的多个候选版本的推理服务中选择目标版本的推理服务；

S103、将该目标版本的推理服务部署到该部署端。

在本公开实施例中的模型可以包括AI模型。a基于训练已产出的模型例如机器学习、深度学习等AI模型。模型可以执行具体的任务，实现具体的功能。例如语音识别、图像识别、物品分类等模型。针对具体的任务，在指定的训练环境中训练得到模型后，可以将该模型封装并部署为推理服务，为用户提供特定的功能。在推理管理服务器中可以预先生成某个模型的多个候选版本的推理服务。每个候选版本的推理服务中可以对应该模型所适用的资源与配置参数。不同的候选版本的推理服务对应的资源与配置参数可以不同。在本公开实施例中，推理管理服务器可以包括单机、集群、云端等各种类型的设备。推理管理服务端和部署端可以为相同的设备，也可以为不同的设备。例如，如果推理管理服务端和部署端获取部署端的运行环境的性能信息，

例如，如果推理管理服务器和部署端是分开的，可以在推理管理服务器安装推理服务管理系统例如AI推理服务全生命周期管理系统。该系统的推理服务部署模块可以执行S101至S103。在S103中，推理管理服务器可以将目标版本的推理服务发送至部署端进行部署。

再如，如果推理管理服务器和部署端是合并的，可以在部署端安装推理服务管理系统。该系统的推理服务部署模块可以执行S101至S103。在S103中，部署端在自身部署目标版本的推理服务。

在本公开实施例中，可以从模型的候选版本的推理服务中选择目标版本的推理服务，自动快速地部署模型的推理服务，提高推理服务的部署效率。

图2是根据本公开另一实施例的推理服务部署方法的流程示意图。该实施例的方法包括上述推理服务部署方法实施例的一个或多个特征。在一种可能的实施方式中，该方法还包括：

S201、根据开发端的需求信息生成该模型的基线版本的推理服务。

S202、基于该基线版本的推理服务进行不同测试环境下的性能测试，得到不同测试环境的性能信息对应的推理服务，作为该多个候选版本的推理服务。

在一种可能的实施方式中，该需求信息包括以下至少之一：

推理服务可运行的软件环境；

推理服务可运行的硬件环境；

推理服务的启动方式；

推理服务的访问方式；

推理服务的请求处理流程；

推理服务的附加功能集成。

在本公开实施例中，推理管理服务器或部署端上的推理服务管理系统可以具有推理服务构建模块。该推理服务构建模块可以接收来自开发端的需求信息。该需求信息可以是从预配置的信息中选择得到的，也可以是根据开发者的个性化需求设置的。

示例性地，需求信息中，推理服务可运行的软件与硬件环境可以包括：模型所需算力硬件与对应的驱动、运行库等软件、中央处理器(Central Processing Unit，CPU)指令集种类、操作系统、与模型类型相关的依赖软件等。

示例性地，需求信息中，推理服务的启动方式可以包括：服务启动命令、模型加载方式等。服务启动命令可以包括启动推理服务的具体命令代码等。模型加载方式可以包括各种类型的模型对应的加载方式。服务启动命令、模型加载方式可以预置，也可以允许开发者自定义。

示例性地，需求信息中，推理服务的访问方式可以包括推理服务的通信协议、服务端口、内部服务地址等。推理服务的访问方式可以预置，也可以允许开发者自定义。

示例性地，需求信息中，推理服务的请求处理流程可以包括预处理、推理、后处理等阶段。推理服务的请求处理流程可以默认流程，也可以允许开发者自定义。

示例性地，需求信息中，推理服务的附加功能集成可以包括无服务器化、安全加固、可观测性组件等功能所需软件模块的集成。

在本公开实施例中，在开发端，开发者可以选择或输入上述的一种或者多种需求信息，然后从开发端将具体的需求信息发送至推理管理服务器或部署端。推理管理服务器或部署端的推理服务构建模块，可以基于开发端具体的需求信息，为模型构建基线版本的推理服务，该基线版本的推理服务可以集成依赖软件运行库的镜像。这样，基于开发端的需求信息为模型构建基线版本的推理服务，有利于以基线版本的推理服务为基础加速获取模型所适用的推理服务。

在一种可能的实施方式中，该不同运行环境的性能信息包括以下至少之一：

不同资源量与不同参数配置下的可承载每秒处理请求数(QPS)；

不同分位数水平下的请求耗时。

在一种可能的实施方式中，该资源量包括CPU核数，该参数配置包括进程数、线程数、同步模式、异步模式中的至少之一。其中，资源量、参数配置和分位数等属于运行环境，QPS、请求耗时等属于性能信息。

例如，CPU核数为c1，进程数为m1，线程数为n1，同步模式，可承载QPS为q1；CPU核数为c2，进程数为m2，线程数为n2，同步模式，可承载QPS为q2；CPU核数为c2，进程数为m2，线程数为n2，异步模式，可承载QPS为q3。其中，q1和q2和q3不同。

再如，分位数P1水平下的请求耗时为T1；分位数P2水平下的请求耗时为T2。其中，T1和T2不同。

在本公开实施例中，可以在不同的运行环境，运行模型的基线版本的推理服务，例如，运行图像识别模型的基线版本的推理服务，对一些图像进行识别。并且，可以记录工作在不同运行环境的模型的推理服务的性能信息。如果性能信息不能达到要求，可以调整运行环境包括的资源量、参数配置和分位数等，从而得到优化的性能信息。在调整运行环境的情况下，可以得到候选版本的推理服务。例如，基线版本的推理服务对应的运行环境包括资源量A1、参数配置A2和分位数A3；第一候选版本的推理服务对应的运行环境包括资源量B1、参数配置B2和分位数B3；第二候选版本的推理服务对应的运行环境包括资源量C1、参数配置C2和分位数C3。

在一种可能的实施方式中，在S202中基于该基线版本的推理服务进行运行环境性能测试，包括：通过启发式搜索算法，基于该基线版本的推理服务进行运行环境性能测试。

在本公开实施例中，启发式搜索算法可以在状态空间中的搜索对每一个搜索的位置进行评估，得到最好的位置，再从这个位置进行搜索直到目标。启发式搜索算法有多种，例如蚁群算法、遗传算法、模拟退火算法等。通过启发式搜索算法可以加快对推理服务进行运行环境性能测试的处理速度，进一步地，可以提高推理服务版本的调优速度。在性能测试时的运行环境也可以称为测试环境。

在一种可能的实施方式中，如图3所示，基于该基线版本的推理服务进行运行环境性能测试，包括以下至少之一：

S301、获取该模型在请求处理流程中的各阶段耗时。例如，通过代码插桩方式，捕获该模型的请求处理流程的各阶段耗时。

S302、根据各阶段耗时，获取深度神经网络的各层的处理耗时和/或各算子的处理耗时。

S303、根据深度神经网络的各层的处理耗时和/或各算子的处理耗时，生成性能报告。

在本公开实施例中，代码插桩也可以称为程序插桩，可以在被测代码中插入探针，然后通过探针的执行来获得代码的控制流和数据流等信息，从而实现对代码进行测试的目的。基于模型的基线版本的推理服务，可以通过代码插桩方式对该模型的运行性能进行测试，捕获该模型的请求处理流程的各阶段耗时。这样，可以在性能报告中加入该模型的请求处理流程的各阶段耗时。

在本公开实施例中，根据模型的请求处理流程的各阶段耗时，获取深度神经网络的各层的处理耗时和/或各算子的处理耗时。这样，可以在性能报告中加入对各层的处理耗时和/或各算子的处理耗时。此外，可以向开发端、测试端等反馈性能报告，从而促进开发端、测试端等对模型进行改进。

在一种可能的实施方式中，在S103中，将该目标版本的推理服务部署到该部署端，包括：

确定该目标版本的推理服务对应的资源量与该推理服务对应的配置参数；

确定该目标版本的推理服务的副本数与外部访问地址；

基于该目标版本的推理服务对应的资源量、该推理服务对应的配置参数、该副本数以及该外部访问地址，将该目标版本的推理服务上线至该部署端。

在本公开实施例中，基于部署端当前的运行环境包括的资源量与配置参数，从候选版本的推理服务中选择目标版本的推理服务后，可以在部署端上线适用于部署端当前的运行环境的目标版本的推理服务，进而为客户端提供模型的更优的服务例如图像识别、智能搜索、文本转换等。

在一种可能的实施方式中，该方法还包括以下至少之一：

情况一：对该部署端已部署的推理服务进行滚动更新。

情况二：将该部署端已部署的推理服务从该部署端移除。

情况三：在该部署端包括多个版本的推理服务共存的情况下，调整各个版本的推理服务的请求流量占比。

在本公开实施例中，已部署的推理服务可能需要更新或移除，还可能出现多个版本的推理服务共存的情况。及时更新可以使得部署端当前部署的推理服务的版本较新，及时移除可以减少冗余的推理服务，多个版本的推理服务共存有利于使得推理服务的更新稳定过度。

在一种可能的实施方式中，在情况一中，对该部署端已部署的推理服务进行更新，包括：对该部署端已部署的新版本的推理服务以指定的副本个数滚动升级，逐步替换该部署端已部署的旧版本的推理服务。

在一种可能的实施方式中，在情况一中，对该部署端已部署的推理服务进行更新，包括：允许该部署端已部署的新版本的推理服务根据流量百分比逐步替换该部署端已部署的旧版本的推理服务。

在本公开实施例中，滚动更新还可以称为滚动发布，可以一次只更新一部分副本，成功后，再更新更多的副本，最终完成所有副本的更新。滚动更新有利于保证服务的连续性。灰度更新还可以称为灰度发布，可以支持一部分用户继续用旧版本的推理服务，一部分用户开始用新版本的推理服务。如果用户对新版本的推理服务没有太多反对意见，可以逐步扩大范围，将所有用户迁移到新版本的推理服务。灰度更新有利于保证推理服务的稳定性。

在一种可能的实施方式中，如图4所示，该方法还包括：

S401、对该部署端已部署的推理服务进行数据收集，以获取该模型的运行效果的统计信息；

S402、根据该统计信息，判断该模型是否适用于模型运行环境。

在本公开实施例中，模型运行环境也可以称为生产环境或线上环境等。模型运行环境可以是模型在部署后已经投入真实生产的运行环境，模型可以在模型运行环境持续运行。模型运行环境中的输入数据是不可预知的且随时间演化的，需要监控模型在模型运行环境是否有偏移，是否适合于模型运行环境。

在一种可能的实施方式中，该统计信息包括以下至少之一：

该模型在模型运行环境的不同时期的请求数据分布偏移；

该模型在模型运行环境的请求数据与模型训练数据的数据分布偏移；

该模型在模型运行环境的输出结果与标注结果的比对结果。

在部署端运行已部署的模型的推理服务(例如目标版本的推理服务)，例如运行图像识别模型的推理服务的过程中，可以收集该图像识别模型的推理服务实际的请求数据、识别结果等实时数据。按照时间、输入数据、输出结果等一个或多个维度进行统计，得到该模型运行效果的统计信息。这样，有利于获悉模型在生产环境下的实际效果是否有偏移，从而能够及时对模型进行优化。例如，如果根据上述的任意一个或多个统计信息，得到某个模型不再适合于模型运行环境，可以触发该模型的新的持续训练流程，使用最新数据训练新的模型。

图5是根据本公开一实施例的推理服务部署装置的结构示意图，该装置可以包括：

获取模块501，用于获取部署端的运行环境的性能信息；

选择模块502，用于根据该部署端的运行环境的性能信息，从模型的多个候选版本的推理服务中选择目标版本的推理服务；

部署模块503，用于将该目标版本的推理服务部署到该部署端。

图6是根据本公开另一实施例的推理服务部署装置的流程示意图。该实施例的装置包括上述推理服务部署装置实施例的一个或多个特征。在一种可能的实施方式中，该装置还包括：

生成模块601，用于根据开发端的需求信息生成该模型的基线版本的推理服务；

测试模块602，用于基于该基线版本的推理服务进行不同测试环境下的性能测试，得到不同测试环境的性能信息对应的推理服务，作为该多个候选版本的推理服务。

在一种可能的实施方式中，该需求信息包括以下至少之一：

推理服务可运行的软件环境；

推理服务可运行的硬件环境；

推理服务的启动方式；

推理服务的访问方式；

推理服务的请求处理流程；

推理服务的附加功能集成。

不同资源量与不同参数配置下的可承载每秒处理请求数QPS；

不同分位数水平下的请求耗时；

其中，该资源量包括CPU核数，该参数配置包括进程数、线程数、同步模式、异步模式中的至少之一。

在一种可能的实施方式中，该测试模块602用于通过启发式搜索算法，基于该基线版本的推理服务进行运行环境性能测试。

在一种可能的实施方式中，该测试模块602用于执行以下至少之一：

获取该模型在请求处理流程中的各阶段耗时；例如通过代码插桩方式，捕获该模型的请求处理流程的各阶段耗时；

根据各阶段耗时，获取深度神经网络的各层的处理耗时和/或各算子的处理耗时；

根据深度神经网络的各层的处理耗时和/或各算子的处理耗时，生成性能报告。

在一种可能的实施方式中，该部署模块503用于确定该目标版本的推理服务对应的资源量与该推理服务对应的配置参数，确定该目标版本的推理服务的副本数与外部访问地址；基于该目标版本的推理服务对应的资源量、该推理服务对应的配置参数、该副本数以及该外部访问地址，将该目标版本的推理服务上线至该部署端。

在一种可能的实施方式中，该装置还包括以下至少之一：

更新模块504，用于对该部署端已部署的推理服务进行更新；

移除模块505，用于将该部署端已部署的推理服务从该部署端移除；

调整模块506，用于在该部署端包括多个版本的推理服务共存的情况下，调整各个版本的推理服务的请求流量占比。

在一种可能的实施方式中，该更新模块504用于对该部署端已部署的新版本的推理服务以指定的副本个数滚动升级，逐步替换该部署端已部署的旧版本的推理服务；或允许该部署端已部署的新版本的推理服务根据流量百分比逐步替换该部署端已部署的旧版本的推理服务。

在一种可能的实施方式中，该装置还包括：监控模块603，用于对该部署端已部署的推理服务进行实时数据收集，以获取该模型的运行效果的统计信息；根据该统计信息，判断该模型是否适用于模型运行环境。

在一种可能的实施方式中，该统计信息包括以下至少之一：

该模型在模型运行环境的不同时期的请求数据分布偏移；

该模型在模型运行环境的输出结果与标注结果的比对结果。

本公开实施例的装置的各模块、子模块的具体功能和示例的描述，可以参见上述方法实施例中对应步骤的相关描述，在此不再赘述。

随着AI在各行业的加速规模化落地，AI推理服务的研发与交付面临新的挑战：首先，大量异构的模型须要与之匹配的推理服务框架，导致推理服务框架难以统一，研发成本剧增。其次，同一模型在异构算力下、同一服务框架的不同参数配置下性能表现不尽相同，性能调优成本高。再者，生产环境为应用效果更优的模型，推理服务往往存在频繁的部署与升级操作，易导致较高的运维成本和运维风险。最后，生产环境中已部署的推理服务可能由于应用场景的变化不再满足既定的数据分布等前提，导致模型效果不符合预期。

此外，相关技术中的AI推理服务的研发与交付在各个环节大量采用需要人工介入的方案，示例如下：

在服务构建环节，针对不同类型的模型，研发人员选择与之匹配的深度学习/机器学习框架；基于框架提供的推理接口开发推理服务；参考业务应用的需求，使推理服务对外暴露满足需求的接口结构。因此，服务构建环节研发成本高，模型适配、服务接口开发占据大量研发人力。

在性能调优环节，测试人员首先考虑实际部署时的环境与硬件条件，主要包括CPU、GPU等算力类型；基于选定的环境完成推理服务的预发布，测试人员调整相关推理服务参数，使用预设流量策略或重现生产环境流量进行性能测试；往复迭代以获得最优的推理服务配置。因此，性能调优环节测试成本高，须人工覆盖大量硬件环境与参数配置。

在服务部署环节，运维人员获取推理服务稳定版本的部署包；针对生产环境的全新部署与更新部署，分别设计部署方案，包括上线流程与失败回滚预案等；为保障服务可用性，执行部署的流程一般采用灰度发布，涉及小流量验证等环节。因此，服务部署环节运维成本高，往往依靠流程文档规范上线与变更流程。

在模型监控环节，当前往往仅涉及推理服务可用性与性能的监控，对模型效果的偏移监控须借助来自外部业务的人工反馈。因此，模型监控环节须大量借助人工反馈，推理服务自身无法快速感知应用场景变化，随着时间推移易导致模型效果不符合预期。

因此，相关技术中的AI推理服务在各环节之间的交互需要繁杂的人为约定，沟通成本高，出错风险高，整体效率低。

本公开实施例针对AI推理服务的特点提出的推理服务部署方法，是一种覆盖AI推理服务全生命周期的自动化管理方法。该方法可以将包括服务构建、性能调优、部署管理与模型监控等多个环节无缝衔接，结合模型训练系统，形成推理服务自动化持续集成的闭环，降低AI推理服务研发与交付成本。基于本方法，业务系统能够基于训练已产出的模型，快速自动化实现推理服务的构建、调优、部署与监控，显著提升研发交付效率，降低人力成本。

下面详细介绍一种多租户AI推理服务全生命周期涉及的各个示例性环节。如图7所示，AI推理服务全生命周期主要包括推理服务构建与集成、推理服务性能调优、推理部署管理、推理模型监控等，各个环节及其之间相互衔接的方式如下：

S701、推理服务构建与集成：

作为AI推理服务生命周期的起点，推理服务构建与集成环节根据开发者的定制需求为输入的模型构建一个基线版本的推理服务，该基线版本的推理服务可以集成依赖软件运行库的镜像。该环节可以面向开发端，从开发端获取开发者的定制需求信息。其中，开发者的定制需求信息的示例如下：

a.推理服务可运行的软件环境与硬件环境，包括例如所需算力硬件与对应的驱动/运行库软件、CPU指令集种类、操作系统、与模型类型相关的依赖软件等。根据这些环境要求，本环节可以为特定的推理服务提供一个与之匹配的基础软件环境例如基线版本的推理服务，以保证推理服务能够在期望的软硬件环境中顺利运行。

b.推理服务的启动方式，包括例如服务启动命令、模型加载方式等。本环节可以为主流机器学习、深度学习等框架预置对应的服务启动命令、模型加载方式等，也可以支持开发者自定义服务启动命令、模型加载方式等行为。

c.推理服务的访问方式，包括例如服务的通信协议、服务端口、内部服务地址等。此外，也可以允许开发者自定义或采用主流机器学习、深度学习等框架的预置访问方式。

d.推理服务的请求处理流程，包括例如预处理、推理、后处理等阶段。每个阶段可以允许开发者自定义处理流程的行为或采用默认的处理流程。

e.推理服务的附加功能集成，包括例如无服务器化、安全加固、可观测性组件等功能所需软件模块的集成。

S702、推理服务性能调优：

在上述的推理服务构建与集成环节，可以为模型生成一个基线版本的推理服务。该基线版本的推理服务能够在特定的软硬件环境中以开发者期望的运行方式对外提供服务。在推理服务性能调优环节可以基于该基线版本的推理服务，进行性能相关测试与迭代调优实验，以描绘出推理服务在不同资源条件与参数配置下的性能画像。其中，性能画像中可以包括多个候选版本的推理服务，不同候选版本的推理服务对应模型在不同运行环境的性能信息。进而基于性能画像可以为开发者推荐最适合的推理服务版本。其中，该环节可以面向测试端，测试端的操作人员可以是测试者或开发者。

具体地：

a.通过性能测试，可以获悉推理服务不同运行环境信息对应的性能信息，例如：服务在不同资源量(例如CPU核数等)与不同参数配置(例如进程数、线程数、同步模式、异步模式等)下可承载的每秒处理请求数(Queries Per Second，QPS)、不同分位数水平下的请求耗时等。

b.通过启发式搜索算法，可以缩短迭代调优实验的次数，快速找到最适合的推理服务版本。

c.推理调优：通过自动化代码插桩捕获请求处理流程的各阶段耗时，可以进一步获悉深度神经网络的各层和/或各算子的处理耗时，以提供详尽的性能报告。

S703、推理部署管理：

在推理服务构建与集成环节可以产出最优的推理服务版本(例如，目标版本的推理服务)，在推理部署管理环节可以负责推理服务部署的相关流程。该环节可以面向部署端。部署端也可以称为服务提供端。一种示例中，也可以先在一个服务器例如云端或集群等服务器中执行AI推理服务的生命周期管理的开发和测试环节，得到目标版本的推理服务，然后将该推理服务离线部署到服务提供端。另一种示例中，也可以在服务提供端上预先安装AI推理服务的生命周期管理系统，并且在服务提供端执行开发、测试和部署等环节。具体地，一种部署过程的示例包括以下至少之一：

a.推理服务的全新部署：基于推理服务版本的资源与配置参数，并指定推理服务的副本数与外部访问地址，将推理服务上线至目标部署平台(即部署端)。

b.推理服务的更新部署：例如包括滚动更新与灰度更新。在滚动更新中，新版本的推理服务以指定的副本个数滚动升级，逐步替换旧版服务；在灰度更新中，允许新版本的推理服务根据流量百分比逐步替换旧版本的推理服务。

c.推理服务的下线：将已部署的推理服务从目标部署平台移除，不再对外提供服务。

d.推理服务的流量管理：针对多个版本的推理服务共存的情形，允许调整各个版本的推理服务的请求流量占比。

S704、推理模型监控：

在推理模型监控环节可以对已部署的推理服务进行实时数据收集，以获得模型运行环境(生产环境)的模型效果的统计信息，进而判断当前模型是否仍适用当前的模型运行环境。例如，需要检查的统计信息如下：

a.检查模型运行环境的不同时期的请求数据分布偏移。

b.检查模型运行环境的请求数据与模型训练数据的数据分布偏移。

c.比对模型运行环境的模型输出结果与真实标注结果，检查模型的有效性。

例如：机器学习模型中可以采用偏移均值的程度(一般为2个标准差)判别数据特征变量的偏移(即数据分布偏移)：

|x_k-μ|≥2σ

其中，x_k：待处理的新样本(某个特征维度)；μ：该维度的预估总体均值；σ：该维度的预估总体标准差；N：样本数量；x_i：样本集合中的第i个样本，样本的平均值。例如，在模型运行环境的不同时期的请求数据分布偏移的计算中，x_k可以为某个时期待处理的新的请求数据，x_i可以为某个时期的第i个请求数据，/>为请求数据的平均值，μ可以为请求数据的预估总体均值；σ可以为请求数据的预估总体标准差；N可以为请求数据数量。

如果以上检查结果反馈模型不再适用于当前的模型运行环境，可以触发新的持续训练流程，使用最新数据训练新的模型。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图8所示，设备800包括计算单元801，其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序，来执行各种适当的动作和处理。在RAM 803中，还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如推理服务部署方法。例如，在一些实施例中，推理服务部署方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时，可以执行上文描述的推理服务部署方法的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行推理服务部署方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入、或者触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种推理服务部署方法，包括：

获取部署端的运行环境的性能信息；所述运行环境的性能信息包括不同分位数水平下的请求耗时；

根据所述部署端的运行环境的性能信息，从模型的多个候选版本的推理服务中选择目标版本的推理服务；

将所述目标版本的推理服务部署到所述部署端；

对所述部署端已部署的推理服务进行更新；

其中，所述将所述目标版本的推理服务部署到所述部署端，包括：

确定所述目标版本的推理服务对应的资源量与所述推理服务对应的配置参数；

确定所述目标版本的推理服务的副本数与外部访问地址；

基于所述目标版本的推理服务对应的资源量、所述推理服务对应的配置参数、所述副本数以及所述外部访问地址，将所述目标版本的推理服务上线至所述部署端；

其中，对所述部署端已部署的推理服务进行更新，包括：对所述部署端已部署的新版本的推理服务以指定的副本个数滚动升级，逐步替换所述部署端已部署的旧版本的推理服务；

对所述部署端已部署的推理服务进行数据收集，以获取所述模型的运行效果的统计信息；

根据所述统计信息，判断所述模型是否适用于模型运行环境；

所述统计信息是按照时间、输入数据以及输出结果多个维度进行统计得到的，所述统计信息包括：

所述模型在所述模型运行环境的不同时期的请求数据分布偏移，所述模型在所述模型运行环境的请求数据与模型训练数据的数据分布偏移以及所述模型在所述模型运行环境的输出结果与标注结果的比对结果。

2.根据权利要求1所述的方法，还包括：

根据开发端的需求信息生成所述模型的基线版本的推理服务；

基于所述基线版本的推理服务进行不同测试环境下的性能测试，得到不同测试环境的性能信息对应的推理服务，作为所述多个候选版本的推理服务。

3.根据权利要求2所述的方法，所述需求信息包括以下至少之一：

推理服务可运行的软件环境；

推理服务可运行的硬件环境；

推理服务的启动方式；

推理服务的访问方式；

推理服务的请求处理流程；

推理服务的附加功能集成。

4.根据权利要求2或3所述的方法，所述不同测试环境的性能信息包括：

不同资源量与不同参数配置下的可承载每秒处理请求数QPS；

其中，所述资源量包括CPU核数，所述参数配置包括进程数、线程数、同步模式、异步模式中的至少之一。

5.根据权利要求4所述的方法，所述基于所述基线版本的推理服务进行运行环境性能测试，包括：通过启发式搜索算法，基于所述基线版本的推理服务进行运行环境性能测试。

6.根据权利要求5所述的方法，还包括以下至少之一：

获取所述模型在请求处理流程中的各阶段耗时；

7.根据权利要求6所述的方法，还包括以下至少之一：

将所述部署端已部署的推理服务从所述部署端移除；

在所述部署端包括多个版本的推理服务共存的情况下，调整各个版本的推理服务的请求流量占比。

8.根据权利要求7所述的方法，对所述部署端已部署的推理服务进行更新，包括：

允许所述部署端已部署的新版本的推理服务根据流量百分比逐步替换所述部署端已部署的旧版本的推理服务。

9.一种推理服务部署装置，包括：

获取模块，用于获取部署端的运行环境的性能信息；所述运行环境的性能信息包括不同分位数水平下的请求耗时；

选择模块，用于根据所述部署端的运行环境的性能信息，从模型的多个候选版本的推理服务中选择目标版本的推理服务；

部署模块，用于将所述目标版本的推理服务部署到所述部署端；

更新模块，用于对所述部署端已部署的推理服务更新；

其中，所述部署模块用于确定所述目标版本的推理服务对应的资源量与所述推理服务对应的配置参数，确定所述目标版本的推理服务的副本数与外部访问地址；基于所述目标版本的推理服务对应的资源量、所述推理服务对应的配置参数、所述副本数以及所述外部访问地址，将所述目标版本的推理服务上线至所述部署端；

所述更新模块用于对所述部署端已部署的新版本的推理服务以指定的副本个数滚动升级，逐步替换所述部署端已部署的旧版本的推理服务；

监控模块，用于对所述部署端已部署的推理服务进行数据收集，以获取所述模型的运行效果的统计信息；

10.根据权利要求9所述的装置，还包括：

生成模块，用于根据开发端的需求信息生成所述模型的基线版本的推理服务；

测试模块，用于基于所述基线版本的推理服务进行不同测试环境下的性能测试，得到不同测试环境的性能信息对应的推理服务，作为所述多个候选版本的推理服务。

11.根据权利要求10所述的装置，所述需求信息包括以下至少之一：

推理服务可运行的软件环境；

推理服务可运行的硬件环境；

推理服务的启动方式；

推理服务的访问方式；

推理服务的请求处理流程；

推理服务的附加功能集成。

12.根据权利要求10或11所述的装置，所述不同测试环境的性能信息包括：

不同资源量与不同参数配置下的可承载每秒处理请求数QPS；

13.根据权利要求12所述的装置，所述测试模块用于通过启发式搜索算法，基于所述基线版本的推理服务进行运行环境性能测试。

14.根据权利要求13所述的装置，所述测试模块用于执行以下至少之一：

获取所述模型在请求处理流程中的各阶段耗时；

15.根据权利要求14所述的装置，还包括以下至少之一：

移除模块，用于将所述部署端已部署的推理服务从所述部署端移除；

调整模块，用于在所述部署端包括多个版本的推理服务共存的情况下，调整各个版本的推理服务的请求流量占比。

16.根据权利要求15所述的装置，所述更新模块用于允许所述部署端已部署的新版本的推理服务根据流量百分比逐步替换所述部署端已部署的旧版本的推理服务。

17.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-8中任一项所述的方法。

19.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-8中任一项所述的方法。