CN112671582A

CN112671582A - 一种基于边缘推理集群的人工智能推理方法和系统

Info

Publication number: CN112671582A
Application number: CN202011562994.8A
Authority: CN
Inventors: 陈清山
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2021-04-16
Anticipated expiration: 2040-12-25
Also published as: CN112671582B

Abstract

本发明公开了一种基于边缘推理集群的人工智能推理方法和系统，方法包括：由设置于服务端的集群管理节点通过控制网络连接到分别设置于不同终端的多个边缘节点，以分别发送不同的集群控制指令；由每个边缘节点通过数据网络分别连接到各自设置在每个边缘节点本地范围内的多个客户端；由每个边缘节点基于集群控制指令来将推理模型选择性地部署到多个客户端；使多个客户端基于推理模型在本地执行人工智能推理任务。本发明能够在分布距离远的边缘集群场景提供低延迟的推理服务。

Description

一种基于边缘推理集群的人工智能推理方法和系统

技术领域

本发明涉及人工智能领域，更具体地，特别是指一种基于边缘推理集群的人工智能推理方法和系统。

背景技术

随着AI(人工智能)技术应用落地的加速，在实际生产中被应用的越来越广泛，各种智能终端的出现，对AI应用部署和升级提出了新的挑战。智能终端不同于传统的计算终端，其特点有体积小、数量多、性能有限、价格便宜等。智能终端集群的特点就是数量大，分布的地域广。因为分布的地域广，就会造成网络延迟的增加。智能终端经常会被部署到不同地区的公共场所中，这就产生了终端的地域性。在同一种业务场景中(例如语音识别)，不同地域的终端需要部署不同的服务，举个例子，在北京部署的终端需要支持普通话的识别，在上海部署的终端需要支持上海话的识别。根据上面提到的终端性能限制问题，没法将所有方言识别部署到同一个终端中，如果要部署到一个终端中的话，必须要增强终端的性能，这导致成本上升，因而不可接受。

另一方面，现有技术的TensorFlowServing、TrionServing支持AI模型部署能力，但是对于终端集群这样的应用场景，没法提供集群管理能力，对于批量大规模的集群操作，例如批量更新、灰度发布等需求，没法满足。KFServing是一个基于Kubernetes开发的推理服务部署平台，支持集群的批量操作能力，但是通过KFServing部署的推理服务，需要统一经过集群的网关，对于分布距离远的边缘集群场景，服务响应的延迟太大，也没法满足实际需求。

针对现有技术中推理服务在分布距离远的边缘集群场景的服务响应的延迟太大的问题，目前尚无有效的解决方案。

发明内容

有鉴于此，本发明实施例的目的在于提出一种基于边缘推理集群的人工智能推理方法和系统，能够在分布距离远的边缘集群场景提供低延迟的推理服务。

基于上述目的，本发明实施例的第一方面提供了一种基于边缘推理集群的人工智能推理方法，包括执行以下步骤：

由设置于服务端的集群管理节点通过控制网络连接到分别设置于不同终端的多个边缘节点，以分别发送不同的集群控制指令；

由每个边缘节点通过数据网络分别连接到各自设置在每个边缘节点本地范围内的多个客户端；

由每个边缘节点基于集群控制指令来将推理模型选择性地部署到多个客户端；

使多个客户端基于推理模型在本地执行人工智能推理任务。

在一些实施方式中，集群管理节点和多个边缘节点基于Kubernetes而搭建为边缘推理集群；控制网络在边缘推理集群基于Kubernetes而为集群管理节点提供对多个边缘节点的控制。

在一些实施方式中，由每个边缘节点基于集群控制指令来将推理模型选择性地部署到多个客户端包括：基于集群控制指令确定分别要部署到每个客户端的相同或不同的一个或多个推理模型，并使用Kubernetes的节点选择器将相同或不同的一个或多个推理模型部署到相对应的每个客户端。

在一些实施方式中，由每个边缘节点基于集群控制指令来将推理模型选择性地部署到多个客户端包括：基于集群控制指令确定要部署到连接到同一边缘节点的所有客户端的同一推理模型，并使用Kubernetes的节点标签和节点选择器将同一推理模型批量部署到同一边缘节点的所有客户端。

在一些实施方式中，方法还包括：使用Kubernetes的节点标签和节点选择器将同一推理模型灰度发布到同一边缘节点的所有客户端。

在一些实施方式中，控制网络配置为在服务端和不同终端建立跨网关的集群连接，以在第一网络延迟下执行服务部署或服务升级。

在一些实施方式中，数据网络配置为在不同终端建立不跨网关的本地连接，以在远小于第一网络延迟的第二网络延迟下执行支持实时响应的人工智能推理服务。

本发明实施例的第二方面提供了一种基于边缘推理集群的人工智能推理系统，包括：

处理器；和

存储器，存储有处理器可运行的程序代码，程序代码在被运行时执行以下步骤：

使多个客户端基于推理模型在本地执行人工智能推理任务。

在一些实施方式中，集群管理节点和多个边缘节点基于Kubernetes而搭建为边缘推理集群；控制网络在边缘推理集群基于Kubernetes而为集群管理节点提供对多个边缘节点的控制；

由每个边缘节点基于集群控制指令来将推理模型选择性地部署到多个客户端的步骤包括：基于集群控制指令确定分别要部署到每个客户端的相同或不同的一个或多个推理模型，并使用Kubernetes的节点选择器将相同或不同的一个或多个推理模型部署到相对应的每个客户端。

在一些实施方式中，由每个边缘节点基于集群控制指令来将推理模型选择性地部署到多个客户端的步骤包括：基于集群控制指令确定要部署到连接到同一边缘节点的所有客户端的同一推理模型，并使用Kubernetes的节点标签和节点选择器将同一推理模型批量部署到同一边缘节点的所有客户端；

步骤还包括：还使用Kubernetes的节点标签和节点选择器将同一推理模型灰度发布到同一边缘节点的所有客户端。

本发明具有以下有益技术效果：本发明实施例提供的基于边缘推理集群的人工智能推理方法和系统，通过由设置于服务端的集群管理节点通过控制网络连接到分别设置于不同终端的多个边缘节点，以分别发送不同的集群控制指令；由每个边缘节点通过数据网络分别连接到各自设置在每个边缘节点本地范围内的多个客户端；由每个边缘节点基于集群控制指令来将推理模型选择性地部署到多个客户端；使多个客户端基于推理模型在本地执行人工智能推理任务的技术方案，能够在分布距离远的边缘集群场景提供低延迟的推理服务。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的基于边缘推理集群的人工智能推理方法的流程示意图；

图2为本发明提供的基于边缘推理集群的人工智能推理方法的模块示意图；

图3为本发明提供的基于边缘推理集群的人工智能推理方法的精确推送图；

图4为本发明提供的基于边缘推理集群的人工智能推理方法的批量推送图；

图5为本发明提供的基于边缘推理集群的人工智能推理方法的边缘节点交互图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明实施例进一步详细说明。

需要说明的是，本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量，可见“第一”“第二”仅为了表述的方便，不应理解为对本发明实施例的限定，后续实施例对此不再一一说明。

基于上述目的，本发明实施例的第一个方面，提出了一种在分布距离远的边缘集群场景提供低延迟的推理服务的基于边缘推理集群的人工智能推理方法的一个实施例。图1示出的是本发明提供的基于边缘推理集群的人工智能推理方法的流程示意图。

所述的基于边缘推理集群的人工智能推理方法，如图1所示，包括执行以下步骤：

步骤S101，由设置于服务端的集群管理节点通过控制网络连接到分别设置于不同终端的多个边缘节点，以分别发送不同的集群控制指令；

步骤S103，由每个边缘节点通过数据网络分别连接到各自设置在每个边缘节点本地范围内的多个客户端；

步骤S105，由每个边缘节点基于集群控制指令来将推理模型选择性地部署到多个客户端；

步骤S107，使多个客户端基于推理模型在本地执行人工智能推理任务。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(ROM)或随机存储记忆体(RAM)等。所述计算机程序的实施例，可以达到与之对应的前述任意方法实施例相同或者相类似的效果。

下面根据图2所示的具体实施例进一步阐述本发明的具体实施方式。

参见图2，边缘推理集群包括集群管理节点和边缘节点，集群管理节点和边缘节点通过管理网络进行交互，即集群管理节点通过管理网络下发操作指令到边缘节点。集群管理节点与边缘节点通过kubernetes组建集群。边缘节点与客户端通过边缘节点的本地网络进行交互，与集群网络独立。框架分为两个部分，上半部分是集群管理、应用部署功能，通过集群管理网络，称为控制网络；下半部分是边缘节点与客户端(在图2中记为CLT)交互网络，我们称为数据网络。

集群管理节点通过在部署应用过程中，需要具备精确的节点管理能力，最小管理单元为节点，即可以指定模型部署到想要部署的节点上，参见图3。此方案通过kubernetes的节点选择器实现，通过在部署时选择节点，达到将模型部署到指定节点的功能。

对于部分模型服务需要部署在具有一种共同属性的边缘节点上时(例如在北京地区的边缘节点部署北京话识别模型)，针对于此种场景，通过kubernetes的标签机制与选择器机制的组合，如图4所示地实现批量操作和灰度发布。

边缘节点的网络结构在图5示出。通过控制网络与集群管理网络交互，通过数据网络与客户端进行交互。在实际情况中控制网络和数据网络可能是同一物理网络或不同网络。但是不论是否为同一物理网络，他们的数据流向是不同的，控制网络的所有数据流需要通过集群网关进行交互，延迟大；数据网络的数据流直接走本地网络，无需经过集群网关，延迟低。集群管理功能为服务部署或升级，对网络延迟不敏感；边缘推理功能为实时响应服务，对网络延迟非常敏感；所以如上图所示的设计，既可以方便的管理集群又可以解决大集群网络延迟高的问题。

从上述实施例可以看出，本发明实施例提供的基于边缘推理集群的人工智能推理方法，通过由设置于服务端的集群管理节点通过控制网络连接到分别设置于不同终端的多个边缘节点，以分别发送不同的集群控制指令；由每个边缘节点通过数据网络分别连接到各自设置在每个边缘节点本地范围内的多个客户端；由每个边缘节点基于集群控制指令来将推理模型选择性地部署到多个客户端；使多个客户端基于推理模型在本地执行人工智能推理任务的技术方案，能够在分布距离远的边缘集群场景提供低延迟的推理服务。

需要特别指出的是，上述基于边缘推理集群的人工智能推理方法的各个实施例中的各个步骤均可以相互交叉、替换、增加、删减，因此，这些合理的排列组合变换之于基于边缘推理集群的人工智能推理方法也应当属于本发明的保护范围，并且不应将本发明的保护范围局限在所述实施例之上。

基于上述目的，本发明实施例的第二个方面，提出了一种在分布距离远的边缘集群场景提供低延迟的推理服务的基于边缘推理集群的人工智能推理系统的一个实施例。系统包括：

处理器；和

使多个客户端基于推理模型在本地执行人工智能推理任务。

从上述实施例可以看出，本发明实施例提供的系统，通过由设置于服务端的集群管理节点通过控制网络连接到分别设置于不同终端的多个边缘节点，以分别发送不同的集群控制指令；由每个边缘节点通过数据网络分别连接到各自设置在每个边缘节点本地范围内的多个客户端；由每个边缘节点基于集群控制指令来将推理模型选择性地部署到多个客户端；使多个客户端基于推理模型在本地执行人工智能推理任务的技术方案，能够在分布距离远的边缘集群场景提供低延迟的推理服务。

需要特别指出的是，上述系统的实施例采用了所述基于边缘推理集群的人工智能推理方法的实施例来具体说明各模块的工作过程，本领域技术人员能够很容易想到，将这些模块应用到所述基于边缘推理集群的人工智能推理方法的其他实施例中。当然，由于所述基于边缘推理集群的人工智能推理方法实施例中的各个步骤均可以相互交叉、替换、增加、删减，因此，这些合理的排列组合变换之于所述系统也应当属于本发明的保护范围，并且不应将本发明的保护范围局限在所述实施例之上。

以上是本发明公开的示例性实施例，但是应当注意，在不背离权利要求限定的本发明实施例公开的范围的前提下，可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外，尽管本发明实施例公开的元素可以以个体形式描述或要求，但除非明确限制为单数，也可以理解为多个。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子；在本发明实施例的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，并存在如上所述的本发明实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。因此，凡在本发明实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明实施例的保护范围之内。

Claims

1.一种基于边缘推理集群的人工智能推理方法，其特征在于，包括执行以下步骤：

由每个所述边缘节点通过数据网络分别连接到各自设置在每个所述边缘节点本地范围内的多个客户端；

由每个所述边缘节点基于所述集群控制指令来将推理模型选择性地部署到所述多个客户端；

使所述多个客户端基于所述推理模型在本地执行人工智能推理任务。

2.根据权利要求1所述的方法，其特征在于，所述集群管理节点和所述多个边缘节点基于Kubernetes而搭建为边缘推理集群；所述控制网络在所述边缘推理集群基于Kubernetes而为所述集群管理节点提供对所述多个边缘节点的控制。

3.根据权利要求2所述的方法，其特征在于，由每个所述边缘节点基于所述集群控制指令来将推理模型选择性地部署到所述多个客户端包括：基于所述集群控制指令确定分别要部署到每个所述客户端的相同或不同的一个或多个所述推理模型，并使用Kubernetes的节点选择器将相同或不同的一个或多个所述推理模型部署到相对应的每个所述客户端。

4.根据权利要求2所述的方法，其特征在于，由每个所述边缘节点基于所述集群控制指令来将推理模型选择性地部署到所述多个客户端包括：基于所述集群控制指令确定要部署到连接到同一所述边缘节点的所有所述客户端的同一所述推理模型，并使用Kubernetes的节点标签和节点选择器将同一所述推理模型批量部署到同一所述边缘节点的所有所述客户端。

5.根据权利要求4所述的方法，其特征在于，还包括：使用Kubernetes的节点标签和节点选择器将同一所述推理模型灰度发布到同一所述边缘节点的所有所述客户端。

6.根据权利要求1所述的方法，其特征在于，所述控制网络配置为在所述服务端和不同所述终端建立跨网关的集群连接，以在第一网络延迟下执行服务部署或服务升级。

7.根据权利要求6所述的方法，其特征在于，所述数据网络配置为在不同所述终端建立不跨网关的本地连接，以在远小于所述第一网络延迟的第二网络延迟下执行支持实时响应的人工智能推理服务。

8.一种基于边缘推理集群的人工智能推理系统，其特征在于，包括：

处理器；和

存储器，存储有处理器可运行的程序代码，所述程序代码在被运行时执行以下步骤：

9.根据权利要求8所述的系统，其特征在于，所述集群管理节点和所述多个边缘节点基于Kubernetes而搭建为边缘推理集群；所述控制网络在所述边缘推理集群基于Kubernetes而为所述集群管理节点提供对所述多个边缘节点的控制；

由每个所述边缘节点基于所述集群控制指令来将推理模型选择性地部署到所述多个客户端的步骤包括：基于所述集群控制指令确定分别要部署到每个所述客户端的相同或不同的一个或多个所述推理模型，并使用Kubernetes的节点选择器将相同或不同的一个或多个所述推理模型部署到相对应的每个所述客户端。

10.根据权利要求9所述的系统，其特征在于，由每个所述边缘节点基于所述集群控制指令来将推理模型选择性地部署到所述多个客户端的步骤包括：基于所述集群控制指令确定要部署到连接到同一所述边缘节点的所有所述客户端的同一所述推理模型，并使用Kubernetes的节点标签和节点选择器将同一所述推理模型批量部署到同一所述边缘节点的所有所述客户端；

步骤还包括：还使用Kubernetes的节点标签和节点选择器将同一所述推理模型灰度发布到同一所述边缘节点的所有所述客户端。