CN117834412A

CN117834412A - 生成式人工智能模型多集群部署方法、系统、存储介质

Info

Publication number: CN117834412A
Application number: CN202311643362.8A
Authority: CN
Inventors: 吴斌
Original assignee: Guangdong Institute of Intelligence Science and Technology
Current assignee: Guangdong Institute of Intelligence Science and Technology
Priority date: 2023-12-01
Filing date: 2023-12-01
Publication date: 2024-04-05

Abstract

本发明提出了生成式人工智能模型多集群部署方法、系统、存储介质，该方法应用于生成式人工智能模型多集群部署系统，方法包括：服务器向管理模块发送查询请求，查询请求包括用户请求模型信息；管理模块根据查询请求中的用户请求模型信息查询网关模块中的模型列表，当模型列表中的模型与用户请求模型信息相匹配，将网关模块确定为目标网关模块；服务器向控制模块发送第一部署请求；控制模块根据第一部署请求中的用户请求模型信息和当前工作负载从工作模块中确定目标工作模块，向目标工作模块发送第二部署请求；目标工作模块对目标工作模块对应的模型进行部署处理得到计算结果，将反馈给服务器。从而提高生成式人工智能模型多集群部署可靠性。

Description

生成式人工智能模型多集群部署方法、系统、存储介质

技术领域

本发明涉及模型多集群部署技术领域，特别涉及一种生成式人工智能模型多集群部署方法、系统、存储介质。

背景技术

生成式人工智能的核心技术是背后的基础大模型，这些模型一般都是百亿级到千亿级参数，要训练得到这些模型目前需要耗费大量的算力，同时将这些模型部署到生产环境供很多用户使用也需要大量算力来支撑，因此如果想给大量用户提供生成式人工智能模型的能力，就需要大量台计算机(成千上万台)，这些计算机可能在一个机房集群也有可能分布在多个机房集群中，并且这些计算机可能是异构的，在这种情况下如何将多种生成式人工智能模型部署到多个异构集群中成为一个急需解决的技术问题。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明提出一种生成式人工智能模型多集群部署方法、系统、存储介质，能够提高生成式人工智能模型多集群部署的可靠性。

第一方面，本发明实施例提供了一种生成式人工智能模型多集群部署方法，应用于生成式人工智能模型多集群部署系统，所述生成式人工智能模型多集群部署系统包括服务器、管理模块、多个网关模块、多个控制模块和多个工作模块，其中，所述服务器分别与所述管理模块和各个所述网关模块通信连接，所述管理模块与各个所述网关模块通信连接，各个所述网关模块分别通过vpn与对应的所述控制模块相连接，所述控制模块与多个工作模块通信连接，与同一个所述控制模块相连接的所述工作模块属于同一个集群，所述工作模块用于对生成式人工智能模型进行部署，所述方法包括：

所述服务器向所述管理模块发送查询请求，所述查询请求包括用户请求模型信息；

所述管理模块根据所述查询请求中的所述用户请求模型信息查询各个网关模块中的模型列表，当所述模型列表中的所述生成式人工智能模型与所述用户请求模型信息相匹配，则将所述网关模块确定为目标网关模块，其中，所述网关模块用于将转发数据进行打包和转换；

所述服务器通过所述目标网关模块向对应的所述控制模块发送第一部署请求，其中，所述第一部署请求包括所述用户请求模型信息；

所述控制模块根据所述第一部署请求中的所述用户请求模型信息和所述工作模块的当前工作负载从多个所述工作模块中确定目标工作模块，并向所述目标工作模块发送第二部署请求；

所述目标工作模块响应于所述第二部署请求，对所述目标工作模块对应的所述生成式人工智能模型进行模型部署处理，得到计算结果，并将所述计算结果反馈给所述服务器。

在本发明的一些实施例中，所述用户请求模型信息包括模型数据和模型执行信息，所述模型数据用于指示待部署的模型类型和输入到模型的模型参数，所述模型执行信息用于指示对所述目标工作模块对应的所述生成式人工智能模型执行的部署操作，所述计算结果包括推理计算结果和微调计算结果，当所述模型执行信息为模型推理，则所述模型参数为推理参数，所述目标工作模块响应于所述第二部署请求，对所述目标工作模块对应的所述生成式人工智能模型进行模型部署处理，得到计算结果，并将所述计算结果反馈给所述服务器，包括：

所述目标工作模块将所述模型参数输入到所述目标工作模块对应的所述生成式人工智能模型中，通过所述生成式人工智能模型对所述模型参数进行计算处理得到所述推理计算结果；

所述目标工作模块将所述推理计算结果依次发送到所述控制模块、所述目标网关模块、所述管理模块和所述服务器，以使得所述服务器将推理计算结果展示给用户。

在本发明的一些实施例中，所述生成式人工智能模型多集群部署系统还包括数据库，所述控制模块与所述数据库通信连接，当所述模型执行信息为模型微调，则所述模型参数为微调参数，所述目标工作模块响应于所述第二部署请求，对所述目标工作模块对应的所述生成式人工智能模型进行模型部署处理，得到计算结果，并将所述计算结果反馈给所述服务器，包括：

所述目标工作模块将所述微调参数输入到所述目标工作模块对应的所述生成式人工智能模型中，通过所述生成式人工智能模型对所述模型参数进行计算处理，并将所述目标工作模块的任务编号、任务状态输入到所述数据库，其中，所述任务状态为正在计算；

当所述目标工作模块通过所述生成式人工智能输出所述微调计算结果，所述目标工作模块将所述微调计算结果发送给所述控制模块；

所述控制模块将所述微调计算结果发送到所述数据库中，并对所述任务状态进行更新；

当所述任务状态为空闲，所述控制模块将所述微调计算结果发送到所述服务器。

在本发明的一些实施例中，所述控制模块将所述微调计算结果发送到所述数据库中，并对所述任务状态进行更新，还包括：

所述控制模块向所述数据库发送任务更新请求，所述任务更新请求包括所述任务编号和所述任务状态；

所述数据库根据所述任务编号获取所述数据库中的所述任务状态，并将所述数据库中的所述任务状态与所述任务更新请求中的所述任务状态进行比较，如果不一样，则将所述任务更新请求中的所述任务状态替换所述数据库中的所述任务状态。

在本发明的一些实施例中，在所述管理模块根据所述查询请求中的所述用户请求模型信息查询各个网关模块中的模型列表之前，包括：

所述网关模块向所述管理模块发送第一注册请求，所述第一注册请求包括所述网关模块的名称、所述控制模块中的所述模型列表、每个所述生成式人工智能模型的所述当前工作负载；

所述管理模块响应于所述第一注册请求，将所述网关模块的名称、所述控制模块中的所述模型列表、每个所述生成式人工智能模型的所述当前工作负载进行存储。

在本发明的一些实施例中，在所述控制模块根据所述第一部署请求中的所述用户请求模型信息和所述工作模块的当前工作负载从多个所述工作模块中确定目标工作模块之前，还包括：

所述工作模块向所述控制模块发送第二注册请求，所述第二注册请求包括所述工作模块的名称、所述工作模块对应的所述生成式人工智能模型的模型名称和模型类别、每个所述生成式人工智能模型的所述当前工作负载；

所述控制模块响应于所述第二注册请求，将所述工作模块的名称、所述工作模块对应的所述生成式人工智能模型的所述模型名称和所述模型类别、每个所述生成式人工智能模型的所述当前工作负载进行存储。

在本发明的一些实施例中，所述控制模块根据所述第一部署请求中的所述用户请求模型信息和所述工作模块的当前工作负载从多个所述工作模块中确定目标工作模块，包括：

所述控制模块获取所述用户请求模型信息中的模型类型，根据所述模型类型获取可用的所述生成式人工智能模型；

所述控制模块获取所述工作模块的所述当前工作负载，选取任务队列的长度最短的所述工作模块作为所述目标工作模块。

第二方面，本发明实施例提供了一种生成式人工智能模型多集群部署系统，包括少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器；所述存储器存储有可被所述至少一个控制处理器执行的指令，所述指令被所述至少一个控制处理器执行，以使所述至少一个控制处理器能够执行如上述第一方面所述的生成式人工智能模型多集群部署方法。

第三方面，本发明实施例提供了一种电子设备，包括有如上述第二方面所述的生成式人工智能模型多集群部署系统。

第四方面，本发明实施例提供了一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行如上述第一方面所述的生成式人工智能模型多集群部署方法。

根据本发明实施例的生成式人工智能模型多集群部署方法，至少具有如下有益效果：应用于生成式人工智能模型多集群部署系统，所述生成式人工智能模型多集群部署系统包括服务器、管理模块、多个网关模块、多个控制模块和多个工作模块，其中，所述服务器分别与所述管理模块和各个所述网关模块通信连接，所述管理模块与各个所述网关模块通信连接，各个所述网关模块分别通过vpn与对应的所述控制模块相连接，所述控制模块与多个工作模块通信连接，与同一个所述控制模块相连接的所述工作模块属于同一个集群，所述工作模块用于对生成式人工智能模型进行部署，所述方法包括：所述服务器向所述管理模块发送查询请求，所述查询请求包括用户请求模型信息；所述管理模块根据所述查询请求中的所述用户请求模型信息查询各个网关模块中的模型列表，当所述模型列表中的所述生成式人工智能模型与所述用户请求模型信息相匹配，则将所述网关模块确定为目标网关模块，其中，所述网关模块用于将转发数据进行打包和转换；所述服务器通过所述目标网关模块向对应的所述控制模块发送第一部署请求，其中，所述第一部署请求包括所述用户请求模型信息；所述控制模块根据所述第一部署请求中的所述用户请求模型信息和所述工作模块的当前工作负载从多个所述工作模块中确定目标工作模块，并向所述目标工作模块发送第二部署请求，所述第二部署请求；所述目标工作模块响应于所述第二部署请求，对所述目标工作模块对应的所述生成式人工智能模型进行模型部署处理，得到计算结果，并将所述计算结果反馈给所述服务器。通过增加管理模块实现对不同网关的管理，通过增加控制模块实现对不同对应有生成式人工智能模型的工作模块的管理，从而在收到用户的请求之后，可以通过管理模块确定模型具体所在的集群，进而根据集群对应的控制模块来获取对应类型的模型，并对模型进行部署处理，使得模型可以在多个集群中同时进行部署，提供了模型部署的可靠性。

附图说明

图1是本发明一个实施例提供的生成式人工智能模型多集群部署方法的流程图；

图2是本发明另一个实施例提供的生成式人工智能模型多集群部署系统中的模块示意图；

图3是本发明另一个实施例提供的生成式人工智能模型多集群部署系统的结构图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，需要理解的是，涉及到方位描述，例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，若干的含义是一个或者多个，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

本发明的描述中，除非另有明确的限定，设置、安装、连接等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。

为了方便理解，以下对术语进行说明：

生成式人工智能(Gen AI)模型,这里主要指基础大模型，多模态模型，包括文本生成模型，文本生成图片模型，文本生成视频模型，语音转文字模型，图片到文本模型等。

AIGC，AI generated content，指用人工智能生成内容，就是基于上述生成式人工智能模型进行内容生成，内容形式包括文本、图像、语音、视频等。

异构：异构指的是不同架构的计算机，比如装有A厂商加速卡的计算机和装有B厂商加速卡的计算机的架构不同，上面运行的软件也不同。

分布式多集群：指物理和逻辑上处于不同区域的计算机集群，比如在a地的数据中心机房和在b地的数据中心机房的计算机为不同集群，不同集群间一般网络不直接互通，每个集群都有其自己的内网网段，集群之间一般需要通过VPN等方式间接访问。

部署：指将生成式人工智能模型变为一种外部可以直接访问使用的网络服务，比如restful api形式的http接口，外部可以可以通过api形式调用该模型的生成能力。

目前生成式人工智能(Generative AI)是当前人工智能发展的热点，生成式人工智能以及人工智能生成内容(AIGC)正在极大程度地影响数字内容的生产方式和消费模式。生成式人工智能的核心技术是背后的基础大模型，包括包括文本生成模型，文本生成图片模型，文本生成视频模型，语音转文字模型，图片到文本模型等。这些模型一般都是百亿级到千亿级参数，一个模型文件大小有几十GB到上百GB，要训练得到这些模型目前需要耗费大量的算力，一般千亿级别的模型需要数千张GPU运算数周时间，同时将这些模型部署到生产环境供很多用户使用也需要大量算力来支撑，因为与CPU程序不同的是，通常一个生成式人工智能模型就要占用一个或多个GPU或加速卡，而一台计算机上通常最多只有8张GPU或加速卡，一个模型在同一时刻只能给一个或几个用户同时使用，因此如果想给大量用户提供生成式人工智能模型的能力，就需要大量台计算机(成千上万台)，这些计算机可能在一个机房集群也有可能分布在多个机房集群中，并且这些计算机可能是异构的，在这种情况下如何将多种生成式人工智能模型部署到多个异构集群中成为一个急需解决的技术问题。目前，已有的相关的生成式人工智能部署系统主要是单节点或单集群层次层面，要求计算机在同一网段可以直接访问，典型的例子有ray和fastchat。并且当前，多个异构集群下算力的统一调度使用，从而限制了计算资源的可扩展性，因为多集群中各个集群为了网络安全一般需要专门的、单个的vpn进行连接访问。

因此，提出了一种生成式人工智能模型多集群部署方法、系统、存储介质。

下面基于附图，对本发明实施例的控制方法作进一步阐述。

参照图1，图1为本发明实施例提供的一种生成式人工智能模型多集群部署方法的流程图，该生成式人工智能模型多集群部署方法应用于生成式人工智能模型多集群部署系统，生成式人工智能模型多集群部署系统包括服务器、管理模块、多个网关模块、多个控制模块和多个工作模块，其中，服务器分别与管理模块和各个网关模块通信连接，管理模块与各个网关模块通信连接，各个网关模块分别通过vpn与对应的控制模块相连接，控制模块与多个工作模块通信连接，与同一个控制模块相连接的工作模块属于同一个集群，工作模块用于对生成式人工智能模型进行部署，生成式人工智能模型多集群部署方法包括但不限于有以下步骤：

步骤S100，服务器向管理模块发送查询请求，查询请求包括用户请求模型信息；

步骤S200，管理模块根据查询请求中的用户请求模型信息查询各个网关模块中的模型列表，当模型列表中的生成式人工智能模型与用户请求模型信息相匹配，则将网关模块确定为目标网关模块，其中，网关模块用于将转发数据进行打包和转换；

步骤S300，服务器通过目标网关模块向对应的控制模块发送第一部署请求，其中，第一部署请求包括用户请求模型信息；

步骤S400，控制模块根据第一部署请求中的用户请求模型信息和工作模块的当前工作负载从多个工作模块中确定目标工作模块，并向目标工作模块发送第二部署请求；

步骤S500，目标工作模块响应于第二部署请求，对目标工作模块对应的生成式人工智能模型进行模型部署处理，得到计算结果，并将计算结果反馈给服务器。

需要说明的是，参考图2，生成式人工智能模型多集群部署系统包括有多个程序模块和通信协议，程序模块主要有：服务器210(Restful api server)、管理220(manager)、多个网关模块230(gateway)、多个控制模块240(controller)和多个工作模块250(worker)，其中，服务器210跟管理220相连接，服务器210分别跟多个网关模块230相连，管理器分别跟多个网关模块230相连接，一个控制模块240管理有多个工作模块250，一个工作模块250对应处理一个生成式人工智能模型，要注意的是，一个集群中设置有一个控制模块240，即，与同一个控制模块240相连接工作模块250对应处理的人工智能模块属于同一个计算机集群，而集群之间一般需要通过VPN等方式间接访问，因此每个控制模块240都对应连接有一个网关模块230，从而实现了集群与集群之间的访问。其中，服务器210和管理220属于后端服务端，网关模块230属于VPN网关，控制模块240、数据库260、工作模块250属于部署服务器集群。

需要说明的是，用户会向服务器210输入生成式人工智能模型调用请求，服务器210接收外部Restful形式如https的生成式人工智能模型调用请求，其中调用请求中包括用户请求模型信息，服务器210根据用户请求模型信息生成查询请求，并将查询请求发送给管理220，管理220根据查询请求中的内容判断应该选择哪个网关模块230，其中用户请求模型信息包括模型类别和模型参数等，根据用户请求模型信息查询各个网关模块230中的模型列表。要注意的是，管理220负责管理各个网关模块230的信息提供给服务器210，比如存储各个网关模块230即对应集群的相关信息，例如各个网关模块230的模型信息和网关模块230对应集群中工作模块250的负载情况，动态更新。要说明的是，每个工作模块250对应处理一个生成式人工智能模型，而控制模块240管理属于同一个集群的所有生成式人工智能模型对应的工作模块250，因此，控制模块240中包括有很多生成式人工智能模型，将这些属于同一个集群中的生成式人工智能模型进行汇合即得到模型列表，控制模块240会将模型列表的相关信息发送给网关模块230，进而通过网关模块230发送给管理220中进行存储，管理220根据查询请求中的用户请求模型信息查询各个网关模块230中的模型列表，当模型列表中的生成式人工智能模型与用户请求模型信息相匹配，则将对应的网关模块230确定为目标网关模块230，并将目标网关模块230的相关信息发送给服务器210，这些相关信息用于指示服务器210能通过这些信息与网关模块230进行通信的信息，示例性地，可以是网关模块230的地址，其中相匹配可以是指生成式人工智能模型的模型类别与用户请求模型信息中的模型类别相同。管理220将目标网关模块230的地址发送给服务器210之后，服务器210将用户输入的生成式人工智能模型调用请求转发给目标网关模块230，目标网关模块230根据生成式人工智能模型调用请求的请求内容生成第一部署请求，即第一部署请求中携带有用户请求模型信息，目标网关模块230通过连接vpn将第一部署请求发送到对应的集群，即对应的控制模块240。

需要说明的是，每个集群中都包括有控制模块240和工作模块250，控制模块240负责管理该集群中各个工作模块250，将网关模块230的第一部署请求作为一个任务，根据各个工作模块250的当前负载情况，即对应任务队列的长度情况，从工作模块250中选取目标工作模块250，并发送第二部署请求给目标工作模块250，同时动态更新模型信息和工作模块250当前负载情况和任务队列，每个工作模块250对应一个生成式人工智能模型，当目标工作模块250从控制模块240收到第二部署请求后开始进行模型的计算，更新自身状态为正在计算，计算完毕更新自身状态为空闲，并得到计算结果，发送到控制模块240，控制模块240将计算结果反馈给网关模块230，网关模块230将计算结果反馈给管理220，管理220将计算结果反馈给服务器210。

需要说明的是，生成式人工智能模型多集群部署系统中还包括有数据库260(database)，一个集群当中设置有对应的数据库260，数据库260与控制模块240通信连接。

需要说明的是，不同的模块之间遵循一定的通信协议，通信协议主要是约定了模块间通信进行数据交换的内容和格式，以下对各个模块之间的通信协议进行说明：

(1)服务器210和管理220间的通信协议，包括：

模型查询：应用程序向管理220发送请求，管理220返回支持的模型列表信息。

获取网关地址：应用程序向管理220发送请求，该请求包括模型名称，管理220返回网关模块230的ip和端口。

(2)管理220和网关模块230间的通信协议，包括：

网关注册：网关模块230向管理220发送请求，该请求包括网关的名称，ip和端口，模型列表和工作负载(每个模型对应的任务队列)，管理220收到以上信息会存储起来。

心跳检测：网关模块230定期向管理220发送请求，该请求包括该网关的模型列表、工作负载，管理220收到该请求会更新之前存储的信息。

网关状态查询：管理220向各个网关发送请求，网关收到请求会返回自身名称，ip和端口，模型列表和工作负载。

(3)应用程序服务器210和网关模块230的通信协议，包括：

模型推理：应用程序向网关模块230发送请求，该请求包括模型名称，模型的输入，网关模块230返回模型的计算输出结果；

模型微调任务提交：应用程序向网关模块230发送请求，该请求包括模型名称，模型的微调输入，网关模块230返回该计算的任务状态和计算结果，任务编号。

模型微调任务查询：应用程序向网关模块230发送请求，该请求包括任务编号，网关模块230返回该计算的任务状态和计算结果，如果计算未完成，则计算结果为空。

(4)网关模块230和集群中控制模块240的通信协议，包括

模型查询：网关模块230向控制模块240发送请求，控制模块240返回支持的模型列表信息。

集群状态查询：网关模块230向控制模块240发送请求，控制模块240返回集群状态，包括集群内各个工作模块250支持的模型，每个模型对应的工作模块250的任务状态；

模型推理：网关模块230向控制模块240发送请求，该请求包括模型名称，模型类别，输入的模型参数，控制模块240返回模型的计算结果；

模型微调任务提交：网关模块230向控制模块240发送请求，请求包括输入的微调参数、模型名称、模型类别，控制模块240返回任务编号和任务状态；

模型微调任务查询：网关模块230向控制模块240发送请求，请求包括任务编号，控制模块240返回任务状态。

(5)：控制模块240和工作模块250间的通信协议，包括

工作模块250注册：工作模块250向控制模块240发送请求，该请求包括工作模块250的名称，ip和端口，模型列表和工作模块250的当前工作负载(每个模型对应的任务队列)，管理220收到以上信息会存储起来。

心跳检测：工作模块250定期向控制模块240发送请求，该请求包括该工作模块250的模型列表、工作模块250当前工作负载，控制模块240收到该请求会更新之前存储的信息。

工作模块250状态查询：控制模块240向各个工作模块250发送请求，工作模块250收到请求会返回自身工作模块250名称，ip和端口，模型列表和当前工作负载；

模型推理：控制模块240向工作模块250发送请求，请求包括模型名称、模型类别和输入的推理参数，工作模块250收到请求会返回模型输出的计算结果；

微调任务提交：控制模块240向工作模块250发送请求，请求包括执行微调任务的模型类型、模型名称和输入的微调参数，工作模块250收到请求会返回微调任务的任务编号和任务状态，存储起来。

微调任务更新：当工作模块250完成微调任务时，会向控制模块240发送请求，包括微调任务的任务编号和最终输出的计算结果，控制模块240收到该请求后更新之前存储的任务信息。

(6)：控制模块240和数据库260直接的通信协议，包括：

计算任务写入：控制模块240向数据库260发送请求，请求包括任务编号和任务状态，数据库260收到后会存储到对应的表中；

计算任务查询：控制模块240向数据库260发送请求，请求包括任务编号和任务桩体，数据库260根据任务编号进行查询返回对应的数据信息，即任务编号对应的任务的任务状态；

计算任务更新：控制模块240向数据库260发送请求，请求包括任务编号和任务状态，数据库260收到后会更新之前存储的数据。

基于上述的模块和通信协议：

在另一实施例中，用户请求模型信息包括模型数据和模型执行信息，模型数据用于指示待部署的模型类型和输入到模型的模型参数，模型执行信息用于指示对目标工作模块250对应的生成式人工智能模型执行的部署操作，计算结果包括推理计算结果和微调计算结果，当模型执行信息为模型推理，则模型参数为推理参数。目标工作模块250响应于第二部署请求，对目标工作模块250对应的生成式人工智能模型进行模型部署处理，得到计算结果，并将计算结果反馈给服务器210这一步骤，还包括：

目标工作模块250将模型参数输入到目标工作模块250对应的生成式人工智能模型中，通过生成式人工智能模型对模型参数进行计算处理得到推理计算结果；

目标工作模块250将推理计算结果依次发送到控制模块240、目标网关模块230、管理220和服务器210，以使得服务器210将推理计算结果展示给用户。

需要说明的是，用户请求模型信息中包括模型执行信息，即需要模型执行怎么操作，当模型执行信息为模型推理的时候，控制模块240与目标工作模块250根据通信协议进行数据交互，控制模块240发送第二部署请求给目标工作模块250，目标工作模块250将第二部署请求中携带的用户请求模型信息中的推理参数输入到目标工作模块250对应的生成式人工智能模型中，以供生成式人工智能模型能够进行模型推理的操作，得到第一计算结果，目标工作模块250将第一计算结果反馈给控制模块240，然后第一计算结果依次经过控制模块240、网关模块230、管理220输入到服务器210中，服务器210将第一计算结果呈现给用户。

在另一实施例中，控制模块240与数据库260通信连接，当模型执行信息为模型微调，则模型参数为微调参数，目标工作模块250响应于第二部署请求，对目标工作模块250对应的生成式人工智能模型进行模型部署处理，得到计算结果，并将计算结果反馈给服务器210，包括：

目标工作模块250将微调参数输入到目标工作模块250对应的生成式人工智能模型中，通过生成式人工智能模型对模型参数进行计算处理，并将目标工作模块250的任务编号、任务状态输入到数据库260，其中，任务状态为正在计算；

当目标工作模块250通过生成式人工智能输出微调计算结果，目标工作模块250将微调计算结果发送给控制模块240；

控制模块240将微调计算结果发送到数据库260中，并对任务状态进行更新；

当任务状态为空闲，控制模块240将微调计算结果发送到服务器210。

需要说明的是，当模型执行信息为模型微调的时候，控制模块240与目标工作模块250根据通信协议进行数据交互，控制模块240发送第二部署请求给目标工作模块250，目标工作模块250将第二部署请求携带的用户请求模型信息中的微调参数输入到目标工作模块250对应的生成式人工智能模型中，以供生成式人工智能模型能够进行模型微调的操作，能理解的是，模型推理一般耗时较短，在数秒或几十秒内即可完成，因此能较快得到第一计算结果，并反馈到服务器210中。但是模型微调需要的时间则在几个小时间甚至需要耗费天级别的时间，这两种计算特点不同，当前无法在同一个系统中同时处理，无法同时支持模型推理和微调。而在本申请当中，通过用户请求模型信息确定当前需要模型执行什么操作，当需要对模型进行模型推理的时候，通过工作模块250让生成式人工智能模型执行模型推理，并将第一计算结果反馈到控制模块240，当需要对模型进行模型微调的时候，通过工作模块250让生成式人工智能模型执行模型微调，在任务状态为正在计算的时候，将目标工作模块250正在执行的任务的任务编号、任务状态等信息输入到数据库260中进行存储，即将模型微调过程中的相关信息存储到数据库260中，直到模型微调完成，生成式人工智能模型输入第二计算结果，通过工作模块250将第二计算结果发送给控制模块240，控制模块240将第二计算模块、目标工作模块250正在执行的任务的任务编号输入到数据库260，并根据任务编号对任务状态进行更新，更新为空闲，代表这个任务编号对应的任务已经完成，此时第二计算结果依次经过控制模块240、网关模块230、管理220输入到服务器210中，服务器210将第二计算结果呈现给用户。更进一步的，还将任务的任务编号发送到控制模块240，让控制模块240知道目标工作模块250的这个任务为空闲，任务队列的长度减1。可以看出，当前生成式人工智能模型部署系统通常只是推理功能，微调训练是另外的系统，本申请通过引入数据库260和相关通信协议将这两种功能融合在一起，可以同时服务用户，大大方便了相关系统开发和维护的难度。

在另一实施例中，控制模块240将微调计算结果发送到数据库260中，并对任务状态进行更新，还包括：

控制模块240向数据库260发送任务更新请求，任务更新请求包括任务编号和任务状态；

数据库260根据任务编号获取数据库260中的任务状态，并将数据库260中的任务状态与任务更新请求中的任务状态进行比较，如果不一样，则将任务更新请求中的任务状态替换数据库260中的任务状态。

需要说明的是，控制模块240向数据库260发送任务写入请求，任务写入请求包括任务状态和任务编号；数据库260将任务状态和任务编号进行存储；控制模块240向数据库260发送任务查询请求，任务查询请求包括任务编号，数据库260根据任务查询请求中的任务编号查询对应的任务状态，并将任务状态反馈给控制模块240；控制模块240向数据库260发送任务更新请求，任务更新请求包括任务编号和任务状态；数据库260根据任务编号获取数据库260中的任务状态，并将数据库260中的任务状态与任务更新请求中的任务状态进行比较，如果不一样，则将任务更新请求中的任务状态替换数据库260中的任务状态。

在另一实施例中，在管理模块根据查询请求中的用户请求模型信息查询各个网关模块中的模型列表之前，包括：

网关模块向管理模块发送第一注册请求，第一注册请求包括网关模块的名称、控制模块中的模型列表、每个生成式人工智能模型的当前工作负载；

管理模块响应于第一注册请求，将网关模块的名称、控制模块中的模型列表、每个生成式人工智能模型的当前工作负载进行存储。

需要说明的是，管理模块之所以能从多个网关模块中选取出目标网关模块，是因为每个网关模块都在管理模块中进行了注册，使得管理模块可以知道每个网关模块的信息。网关模块向管理模块发送第一注册请求，第一注册请求里携带有网关模块的各种信息和模型的相关信息，例如网关模块的名称，ip和端口，模型列表和工作模块的当前工作负载，管理模块收到以上信息会存储起来。在管理模块收到服务器发送的查询请求后，就会对这些信息进行查询，从而根据用户请求模型信息和各个网关模块对应的模型列表进行匹配，如果匹配成功，则认为该模型列表对应的集群中有想要部署的生成式人工智能模型。

更进一步地，在管理模块根据查询请求中的用户请求模型信息查询各个网关模块中的模型列表之前，还会进行心跳检测和网关状态查询，示例性地，心跳检测：网关模块定期向管理模块发送请求，该请求包括该网关的模型列表、工作模块当前工作负载，管理模块收到该请求会更新之前存储的信息；网关状态查询：管理模块向各个网关发送请求，网关收到请求会返回自身名称，ip和端口，模型列表和工作负载；网关状态查询和心跳检测能保证管理模块接收到最新的网关模块相关的信息、生成式人工智能模型的相关信息和工作模块的当前工作负载，从而提高模型部署的可靠性。

在另一实施例中，在控制模块根据第一部署请求中的用户请求模型信息和工作模块的当前工作负载从多个工作模块中确定目标工作模块之前，还包括：

工作模块向控制模块发送第二注册请求，第二注册请求包括工作模块的名称、工作模块对应的生成式人工智能模型的模型名称和模型类别、每个生成式人工智能模型的当前工作负载；

控制模块响应于第二注册请求，将工作模块的名称、工作模块对应的生成式人工智能模型的模型名称和模型类别、每个生成式人工智能模型的当前工作负载进行存储。

需要说明的是，为了方便控制模块对属于同一个集群中的工作模块进行管理，工作模块需要在控制模块中进行注册，

工作模块向控制模块发送第二注册请求，第二注册请求里携带有工作模块的各种信息和模型的相关信息，例如工作模块的名称，ip和端口，模型列表和工作模块的当前工作负载，控制模块收到以上信息会存储起来。在控制模块收到网关模块发送的第一部署请求后，就会对这些信息进行查询，从而根据用户请求模型信息和工作模块的当前工作负载确定目标工作模块，让目标工作模块列表对对应的生成式人工智能模型进行部署。

更进一步地，工作模块和控制模块之间还会进行心跳检测、工作模块状态查询等的通信协议，从而保证控制模块中存储的信息是最新的信息，提高模型部署的可靠性。并且还会进行模型推理、微调任务提交、微调任务更新等通信协议，从而推动生成式人工智能模型进行对应的、所需要的操作，得到最终的计算结果。

在另一实施例中，控制模块根据第一部署请求中的用户请求模型信息和工作模块的当前工作负载从多个工作模块中确定目标工作模块，包括：

控制模块获取用户请求模型信息中的模型类型，根据模型类型获取可用的生成式人工智能模型；

控制模块获取工作模块的当前工作负载，选取任务队列的长度最短的工作模块作为目标工作模块。

需要说明的是，控制模块根据请求内容：模型类别和输入参数，选择可用的工作模块，由于每个工作模块负责一个生成式人工智能模型，所以给定模型后就可遍历所有工作模块得到可用的目标工作模块，然后根据这些工作模块的工作负载选择最短的队列长度的工作模块，然后向目标工作模块发送第二部署请求。

更进一步地，每当新的工作模块或新的集群加入或去掉到已有工作模块或集群时，只需对应更新对应的工作模块和网关模块，其余部分不受影响。解决了在当前生成式人工智能模型部署系统中难以在多个集群进行扩展的问题，使得在模型可以在多个异构集群中同时进行部署，可以随时添加删除集群，每个集群内也可以随时添加或删除服务器，并且当某个集群、服务器出现故障时并不影响其他集群的使用，提高了系统的鲁棒性。

更进一步地，系统中各个模块的启动顺序为启动每个集群中的控制模块，启动每个集群中的工作模块，启动管理模块，启动每个集群对应的网关模块，启动应用服务器。因为控制模块管理工作模块，因此需要先启动控制模块再启动对应的工作模块；而因为管理模块管理网关模块，因此需要先启动管理模块再启动对应的网关模块，待全部启动完毕后，再启动服务器，接收用户的生成式人工智能模型调用请求。

如图3所示，图3是本发明一个实施例提供的生成式人工智能模型多集群部署系统的结构图。本发明还提供了一种生成式人工智能模型多集群部署系统，包括：

处理器310，可以采用通用的中央处理器(Central Processing Unit，CPU)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本申请实施例所提供的技术方案；

存储器320，可以采用只读存储器(Read Only Memory，ROM)、静态存储设备、动态存储设备或者随机存取存储器(Random Access Memory，RAM)等形式实现。存储器320可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器320中，并由处理器310来调用执行本申请实施例的···方法；

输入/输出接口330，用于实现信息输入及输出；

通信接口340，用于实现本装置与其他设备的通信交互，可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信；

总线350，在设备的各个组件(例如处理器310、存储器320、输入/输出接口330和通信接口340)之间传输信息；

其中处理器310、存储器320、输入/输出接口330和通信接口340通过总线350实现彼此之间在设备内部的通信连接。

本申请实施例还提供了一种电子设备，包括如上所述的生成式人工智能模型多集群部署系统。

本申请实施例还提供了一种存储介质，存储介质为计算机可读存储介质，该存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述生成式人工智能模型多集群部署方法。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，实现了以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包括计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

以上是对本发明的较佳实施进行了具体说明，但本发明并不局限于上述实施方式，熟悉本领域的技术人员在不违背本发明精神的共享条件下还可作出种种等同的变形或替换，这些等同的变形或替换均包括在本发明权利要求所限定的范围内。

Claims

1.一种生成式人工智能模型多集群部署方法，其特征在于，应用于生成式人工智能模型多集群部署系统，所述生成式人工智能模型多集群部署系统包括服务器、管理模块、多个网关模块、多个控制模块和多个工作模块，其中，所述服务器分别与所述管理模块和各个所述网关模块通信连接，所述管理模块与各个所述网关模块通信连接，各个所述网关模块分别通过vpn与对应的所述控制模块相连接，所述控制模块与多个工作模块通信连接，与同一个所述控制模块相连接的所述工作模块属于同一个集群，所述工作模块用于对生成式人工智能模型进行部署，所述方法包括：

2.根据权利要求1所述的生成式人工智能模型多集群部署方法，其特征在于，所述用户请求模型信息包括模型数据和模型执行信息，所述模型数据用于指示待部署的模型类型和输入到模型的模型参数，所述模型执行信息用于指示对所述目标工作模块对应的所述生成式人工智能模型执行的部署操作，所述计算结果包括推理计算结果和微调计算结果，当所述模型执行信息为模型推理，则所述模型参数为推理参数，所述目标工作模块响应于所述第二部署请求，对所述目标工作模块对应的所述生成式人工智能模型进行模型部署处理，得到计算结果，并将所述计算结果反馈给所述服务器，包括：

3.根据权利要求2所述的生成式人工智能模型多集群部署方法，其特征在于，所述生成式人工智能模型多集群部署系统还包括数据库，所述控制模块与所述数据库通信连接，当所述模型执行信息为模型微调，则所述模型参数为微调参数，所述目标工作模块响应于所述第二部署请求，对所述目标工作模块对应的所述生成式人工智能模型进行模型部署处理，得到计算结果，并将所述计算结果反馈给所述服务器，包括：

4.根据权利要求3所述的生成式人工智能模型多集群部署方法，其特征在于，所述控制模块将所述微调计算结果发送到所述数据库中，并对所述任务状态进行更新，还包括：

5.根据权利要求1所述的生成式人工智能模型多集群部署方法，其特征在于，在所述管理模块根据所述查询请求中的所述用户请求模型信息查询各个网关模块中的模型列表之前，包括：

6.根据权利要求1所述的生成式人工智能模型多集群部署方法，其特征在于，在所述控制模块根据所述第一部署请求中的所述用户请求模型信息和所述工作模块的当前工作负载从多个所述工作模块中确定目标工作模块之前，还包括：

7.根据权利要求1所述的生成式人工智能模型多集群部署方法，其特征在于，所述控制模块根据所述第一部署请求中的所述用户请求模型信息和所述工作模块的当前工作负载从多个所述工作模块中确定目标工作模块，包括：

8.一种生成式人工智能模型多集群部署系统，其特征在于，包括服务器、管理模块、多个网关模块、多个控制模块和多个工作模块，其中，所述服务器分别与所述管理模块和各个所述网关模块通信连接，所述管理模块与各个所述网关模块通信连接，各个所述网关模块分别通过vpn与对应的所述控制模块相连接，所述控制模块与多个工作模块通信连接，与同一个所述控制模块相连接的所述工作模块属于同一个集群，所述工作模块用于对生成式人工智能模型进行部署，所述系统包括：

所述服务器用于向所述管理模块发送查询请求，所述查询请求包括用户请求模型信息；

所述管理模块用于根据所述查询请求中的所述用户请求模型信息查询各个网关模块中的模型列表，当所述模型列表中的所述生成式人工智能模型与所述用户请求模型信息相匹配，则将所述网关模块确定为目标网关模块，其中，所述网关模块用于将转发数据进行打包和转换；

所述服务器用于通过所述目标网关模块向对应的所述控制模块发送第一部署请求，其中，所述第一部署请求包括所述用户请求模型信息；

所述控制模块用于根据所述第一部署请求中的所述用户请求模型信息和所述工作模块的当前工作负载从多个所述工作模块中确定目标工作模块，并向所述目标工作模块发送第二部署请求，所述第二部署请求；

所述目标工作模块用于响应于所述第二部署请求，对所述目标工作模块对应的所述生成式人工智能模型进行模型部署处理，得到计算结果，并将所述计算结果反馈给所述服务器。

9.一种电子设备，其特征在于，包括权利要求8所述的生成式人工智能模型多集群部署系统。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如权利要求1至7任一项所述的生成式人工智能模型多集群部署方法。