CN115248692A

CN115248692A - 一种支持多种深度学习框架模型云端部署的装置及方法

Info

Publication number: CN115248692A
Application number: CN202211148564.0A
Authority: CN
Inventors: 蒋纪琼; 潘淑; 陈志伟
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2022-09-21
Filing date: 2022-09-21
Publication date: 2022-10-28

Abstract

本发明公开了一种支持多种深度学习框架模型的云端部署装置及方法，将模型以线上服务的形式部署在云端服务器，支持使用http和gRPC两种通信协议提供在线推理服务，包括如下步骤：步骤一、根据方法说明部署模型云端部署装置及网关装置；步骤二、训练待部署的模型，并保存为其所使用的深度学习框架对应的可支持部署的模型格式；步骤三、根据模型采用的深度学习框架及方法中提供的必要的依赖包，制作可支持模型部署的镜像；步骤四、根据装置页面要求选择合适的参数将该模型进行云端部署。本发明操作简单，用户无须精通算法即可在本装置中同时部署多种深度学习框架训练的模型，且易于扩展，同时支持其他深度学习框架模型部署。

Description

一种支持多种深度学习框架模型云端部署的装置及方法

技术领域

本发明涉及深度学习领域，尤其涉及一种支持多种深度学习框架模型云端部署的装置及方法。

背景技术

近年来，随着算力的不断提升和数据的爆发式增长，以深度学习为代表的人工智能技术的发展推动了社会各行各业智能化的进程，深度学习算法也应用到了生产生活的诸多领域，比如计算机视觉算法在安防和自动驾驶领域的应用，自然语言处理算法和智能语音算法在智能客服领域的应用，以及各种各样的推荐算法在电商领域的应用等。与此同时，作为推动人工智能应用大规模落地的关键力量--深度学习框架，其发展也如火如荼，国内外涌现出许多优秀的开源深度学习框架，且各自占据了一定份额的市场。因此，如何高效地把训练好的模型部署到云端服务器，并且支持基于多种深度学习框架训练得到的模型进行部署，成为亟需解决的问题。

发明内容

本发明的目的在于针对基于现有的多种深度学习框架开发的模型，提供一种支持多种深度学习框架模型云端部署的装置及方法。

第一方面，提供一种支持多种深度学习框架模型云端部署的装置。该装置主要分为3部分：云端部署装置、网关装置和Serving引擎，其中，云端部署装置包含Kubernetes容器集群管理系统。

云端部署装置，可支持用户在装置中同时云端部署多个模型，主要用于对用户部署的多个在线推理服务进行管理、状态监测及资源监控。该装置可与用户交互，接收用户输入的待部署模型的相关信息，并根据部署规格参数调度Kubernetes容器集群中相应的容器进行模型部署；Kubernetes容器集群管理系统，主要用于管理云平台中多个主机上的容器化应用，模型部署在Kubernetes容器中，并通过Kubernetes对各个节点资源进行统一调度，提供相应服务；

网关装置，可以对使用该http服务的用户进行鉴权，提升服务安全性，防止接口被恶意攻击；统计该服务被调用的总次数及失败次数，直观展示该服务的稳定性及使用情况；灰度发布时，统一调配两个版本模型服务节点的路由消息。

Serving引擎，主要用于封装模型对外提供推理服务的接口，以及对各个基于不同的深度学习框架的推理脚本（包含用户自定义推理脚本）进行统一管理调用，可支持图像、语音、文本等多种类型的模型实现云端部署。该Serving引擎运行在Kubernetes容器内，提供模型部署、数据处理以及提供在线服务的功能。

第二方面，提供一种支持多种深度学习框架模型云端部署的方法，包括以下步骤：

步骤1：部署模型云端部署装置、网关装置，配置Serving引擎的路径，并准备待部署的模型及环境镜像；

步骤2：在云端部署装置前端页面中选择待部署模型并创建在线推理服务，后台校验参数后，根据选择的服务类型自动构建模型部署启动命令及相关的在线推理服务参数（包含启动脚本、框架名称等参数），并为每个服务分配唯一的推理请求域名；若预置推理脚本无法满足模型部署需求，用户可在前端页面上传自定义推理脚本，云端部署装置后台会自动将该脚本拷贝至指定目录下，方便Serving引擎统一管理调用，该过程用户无感知；

步骤3：Kubernetes容器集群管理系统根据配置的节点数和节点规格创建容器，通过自定义Kubernetes的路由（ingress）域名解析结合代理服务转发的方式，为模型部署的每个容器分配对应的路由转发，其中，若采用多节点部署方式，则每个模型各节点的路由（ingress）域名相同，并根据服务方式运行Serving引擎中的启动脚本；

步骤4：容器创建成功，Serving引擎启动，调用步骤2中在线推理服务参数对应的推理脚本或自定义推理脚本加载模型。云端部署装置将该服务的路由（ingress）域名信息及分流比例、推理请求域名等信息发送至Redis消息队列中；网关装置监听到Redis消息队列中的域名等信息后，转存为该在线服务的路由配置；

步骤5：模型加载成功，即表示该模型云端部署成功，可提供在线推理服务。用户可通过装置页面中的预测按钮，对模型在线推理服务功能进行测试，若页面显示接口返回的推理结果，说明模型部署成功；

步骤6：用户可根据实际场景，调用装置页面提示的请求路径，即可进行在线推理。其中，使用http通信协议的服务，网关装置中可统计出该服务被调用的总次数和失败次数；使用gRPC通信协议的服务，在gRPC Server中统计该服务被调用的总次数和失败次数。

进一步地，步骤1中，当完成模型训练后，制作该模型推理时所需要的镜像，并在镜像中安装Serving引擎中额外需要的依赖包，作为该模型在线服务运行的镜像。

进一步地，步骤2中，模型部署时可选择http或gRPC两种通信协议提供在线推理服务。当选择http通信协议部署模型时，可选择是否进行灰度发布，即同一服务可同时部署两个不同版本的模型，并设置每个版本的分流比例。两个版本各节点的模型均通过同一请求路径进行访问，在网关装置处根据分流比例自动分流，以此达到灰度发布的效果。服务访问统计及鉴权均在网关装置中实现；若选择gRPC通信协议，则鉴权及统计在Serving引擎中的gRPC Server实现。

进一步地，步骤2中，模型部署时可选择单节点部署和多节点部署两种方式。用户可根据预测并发量决定部署的节点数，及每个节点的资源规格。采用多节点方式部署时，各节点的请求路径相同，每个节点会平分该服务的推理请求，以此来提升该模型支持的并发访问量。

进一步地，步骤3中， http和gRPC通信协议对应的Serving引擎启动脚本不同，但启动脚本中对各深度学习框架推理脚本的管理及调用方式相同，因此同一模型的推理脚本，可同时用于提供基于http和gRPC两种通信协议的服务方式。

进一步地，步骤3中，模型部署过程中会涉及两种域名，一种是推理请求域名，即模型部署后，对外提供http访问的推理请求域名。创建在线推理服务时，云端部署装置会给每个在线服务分配一个UUID，作为该服务推理请求域名中的子域名。另一种是Kubernetes为每个版本模型提供服务的路由（ingress）域名，当选择灰度发布时，每个版本模型的Kubernetes的路由（ingress）域名不同，但两个版本模型的服务使用同一个推理请求子域名，从而保证灰度发布的两个版本模型提供的http推理请求路径相同。

进一步地，步骤4中，Serving引擎针对不同深度学习框架的模型加载、数据预处理、推理和后处理，定义了包含模型加载、数据预处理、推理&后处理三种抽象方法的抽象基类，每个需要支持模型部署的深度学习框架推理脚本，继承该抽象基类并实现其中的三个抽象方法，便于统一多种框架模型部署、推理接口。本发明公开定义了常用的三种深度学习框架的预置推理脚本，如需支持其他框架模型部署，或有额外的数据处理需求，仅需根据模板自定义实现该框架的推理脚本子类，并在步骤2中上传该自定义脚本，则模型部署时会自动调用用户自定义推理脚本中的方法去加载模型及数据处理。

进一步地，步骤5中，用户调用推理请求时，反向代理服务器（Nginx）根据推理请求域名将请求转发至网关装置，网关装置在接收到推理请求后，根据路由配置转发到该在线服务的Kubernetes的路由（ingress）域名地址。推理请求到达Serving引擎后，Serving引擎调用步骤4中推理脚本中的数据预处理、推理和后处理方法，从而实现图像、语音、文本等多种类型数据的在线推理服务。

本发明通过将模型以线上服务的形式部署在云端服务器，支持使用http和gRPC两种通信协议提供在线推理服务，根据模型采用深度学习框架、依赖包来制作可支持模型部署的镜像，最后根据装置页面要求选择合适的参数将该模型进行云端部署，操作简单，用户无须精通算法即可在本装置中同时部署多种深度学习框架训练的模型，且易于扩展，同时支持其他深度学习框架模型部署。

附图说明

为了更清楚直观地说明本发明中的技术方案，附图用以提供对本发明的进一步理解，并构成说明书的一部分，与下面的具体实施方式一起用于解释本发明，其中：

图1为支持多种深度学习框架模型部署的装置整体架构图；

图2为支持多种深度学习框架模型云端部署的方法主要流程示意图；

图3为模型部署成功后，推理请求转发流程示意图。

具体实施方式

以下结合附图对本发明具体实施方式作作进一步详细说明。

如图1所示，本发明提供的支持多种深度学习框架模型云端部署的装置，主要包含了云端部署装置、网关装置和Serving引擎三部分，其中，云端部署装置包含Kubernetes容器集群管理系统。

本发明提供的支持多种深度学习框架模型云端部署的方法整体流程如图2所示，主要包含以下步骤：

S1：部署模型云端部署装置及网关装置，并配置Serving引擎的路径。

S2：将训练完成待部署的模型，保存为该深度学习框架对应的可支持部署的模型格式。

S3：在模型推理时所需的镜像基础上，安装Serving引擎中运行需要的依赖包，作为该模型部署时提供在线服务的镜像。

S4：在云端部署装置页面选择S2中待部署的模型、提供服务方式、节点数及节点规格、是否使用自定义脚本等参数，创建在线推理服务，后台校验参数后，根据选择的服务类型自动构建模型部署启动命令及相关的在线推理服务参数（包含启动脚本、框架名称等参数），并为每个服务分配唯一的推理请求域名。

在本发明实施例中，若待部署模型是Serving引擎预置的深度学习框架模型，且无特殊的数据处理要求，可直接使用Serving引擎中的预置推理脚本；如无该深度学习框架的预置推理脚本，或有自定义数据处理需求，也可根据推理脚本模板自定义实现该模型的推理脚本，并在云端部署装置页面上传，云端部署装置后台将该自定义脚本拷贝至指定目录下，方便Serving引擎调用。

S5：Kubernetes容器集群管理系统根据配置的节点数和节点规格创建容器，挂载模型，并为每个版本的模型分配该模型提供服务的Kubernetes的路由（ingress）域名。

S6：等待容器创建成功，执行S4中构建的启动命令启动Serving引擎，调用S4中深度学习框架参数对应的推理脚本，或自定义推理脚本加载模型。云端部署装置将该服务的路由（ingress）域名信息及分流比例、推理请求域名等信息发送至Redis消息队列中；网关装置监听到Redis消息队列中的域名等信息后，转存为该在线服务的路由配置；

S7：等待模型加载成功，提供在线推理服务。模型加载成功，即代表该模型云端部署成功，用户可通过装置页面中的预测按钮对模型在线推理服务功能进行测试，若页面显示接口返回的推理结果，说明模型部署成功。

S8：用户根据实际场景，调用装置页面提示的请求路径，进行在线推理。

在本发明实施例中，以http请求为例，用户调用模型部署后提供的在线服务推理请求接口，反向代理服务器（Nginx）解析推理请求域名后转发至网关装置；网关装置根据S6中的路由配置转发到Kubernetes的Ingress控制器（对集群中服务的外部访问进行管理的API 对象），Ingress控制器根据该版本模型的ingress域名将请求解析至对应的Service服务，经过Service负均衡后转发至合适的Pod（Kubernetes 集群中运行部署应用或服务的最小单元）进行推理，并返回推理结果，如附图3所示。

所述步骤S4中在云端部署装置中部署模型时，可选择使用http通信协议或gRPC通信协议提供服务。

所述步骤S4中部署模型时，可选择单节点部署或多节点部署，多节点部署时，各节点的请求路径相同，每个节点平分该服务的推理请求，以此来提升该模型的并发访问量。

所述步骤S4中部署模型时，可选择调用CPU或GPU类型的节点部署模型，并设置每个节点的规格。

所述的网关装置用于在http形式下提供鉴权、统计和调配服务；

（1）对使用该http服务的用户进行鉴权，提升服务安全性，防止接口被恶意攻击；

（2）统计该服务被调用的总次数及失败次数，直观展示该服务的稳定性及使用情况；

（3）灰度发布时，统一调配两个版本模型服务节点的路由消息。

所述的Serving引擎主要用于封装模型对外提供推理服务的接口，以及对各深度学习框架推理脚本（包含用户自定义推理脚本）统一管理调用，可支持图像、语音、文本等多种类型的模型进行云端部署。运行在Kubernetes容器内，提供模型部署、数据处理以及提供在线服务的功能。

以上对本发明的具体实施例进行了描述，需要指出的是，本发明并不限于上述特定的实施方式。本领域的技术人员可以在权利要求的范围内做出各种修改和变化，仍然在本发明的保护范围内。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意组合。

Claims

1.一种支持多种深度学习框架模型云端部署的方法，其特征在于，包含以下步骤：

S1：部署模型云端部署装置、网关装置，配置Serving引擎的路径，并准备待部署的模型及环境镜像；

S2：在云端部署装置前端页面中选择待部署模型并创建在线推理服务，后台根据选择的服务类型自动构建模型部署启动命令及相关的在线推理服务参数，并为每个服务分配唯一的推理请求域名；

S3：Kubernetes容器集群管理系统根据配置的节点数和节点规格创建容器，为模型部署的每个容器分配对应的路由转发，并根据服务方式运行Serving引擎中的启动脚本；

S4：容器创建成功后，启动Serving引擎，调用步骤S2中在线推理服务参数对应的推理脚本或自定义推理脚本加载待部署模型；

S5：模型加载成功后，即表示该模型在云端服务器部署成功后，提供在线推理服务，用户通过装置页面中的预测按钮调用推理请求，对该模型的在线推理服务进行测试；

S6：用户根据实际场景，调用装置页面提示的请求路径，进行在线推理；

其中，通过http通信协议提供的在线推理服务，网关装置中统计出该服务被调用的总次数和失败次数；通过gRPC通信协议提供的在线推理服务，在gRPC Server中统计该服务被调用的总次数和失败次数。

2.根据权利要求1所述的一种支持多种深度学习框架模型云端部署的方法，其特征在于：所述步骤S2中选择模型创建在线推理服务时，选择http通信协议或gRPC通信协议提供服务。

3.根据权利要求2所述的一种支持多种深度学习框架模型云端部署的方法，其特征在于：所述步骤S2中通过http通信协议提供的在线推理服务，网关装置中统计出该服务被调用的总次数和失败次数；通过gRPC通信协议提供的在线推理服务，在gRPC Server中统计该服务被调用的总次数和失败次数。

4.根据权利要求1所述的一种支持多种深度学习框架模型云端部署的方法，其特征在于：所述步骤S1中选择模型进行云端部署时，选择单节点部署或多节点部署；多节点部署时，各节点的请求路径相同，每个节点平分该服务的推理请求。

5.根据权利要求1所述的一种支持多种深度学习框架模型云端部署的方法，其特征在于：所述步骤S2中部署模型云端部署装置时，选择调用CPU或GPU类型的节点部署模型，并设置每个节点的规格。

6.根据权利要求1所述的一种支持多种深度学习框架模型云端部署的方法，其特征在于：步骤S2中当选择http通信协议部署模型时，选择是否进行灰度发布。

7.根据权利要求1所述的一种支持多种深度学习框架模型云端部署的方法，其特征在于：所述步骤S2的在线推理服务参数包括启动脚本、框架名称。

8.根据权利要求1所述的一种支持多种深度学习框架模型云端部署的方法，其特征在于：所述步骤S5中用户调用推理请求时，Nginx根据推理请求域名将请求转发至网关装置，网关装置在接收到推理请求后，根据路由配置转发到该在线服务的Kubernetes ingress域名地址。

9.一种支持多种深度学习框架模型云端部署的装置，其特征在于，包括互相连接的云端部署装置、网关装置和Serving引擎；

所述的云端部署装置用于与用户交互，接收用户输入的待部署模型的相关信息，并根据部署规格参数进行模型部署；

所述的网关装置用于在http通信协议下提供鉴权、统计和调配服务；

所述的Serving引擎用于提供接口封装、模型加载和数据处理。

10.根据权利要求9所述的一种支持多种深度学习框架模型云端部署的装置，其特征在于：所述的云端部装置包括Kubernetes容器集群管理系统，所述的Kubernetes容器集群管理系统用于管理云平台中多个服务器节点上的容器化的应用，模型部署在Kubernetes容器中，并通过Kubernetes对各个节点进行统一调度，提供相应服务。