CN116702907A

CN116702907A - 一种服务器无感知的大语言模型推理系统、方法和设备

Info

Publication number: CN116702907A
Application number: CN202310961495.3A
Authority: CN
Inventors: 金鑫; 刘譞哲; 仲殷旻; 吴秉阳; 章梓立
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2023-08-02
Filing date: 2023-08-02
Publication date: 2023-09-05
Anticipated expiration: 2043-08-02
Also published as: CN116702907B

Abstract

本申请提供了一种服务器无感知的大语言模型推理系统、方法和设备，该系统应用于人工智能技术领域，该系统包括：调度器和GPU集群；调度器包括：作业分析模块，用于对接收到的目标推理作业请求，进行信息预测，得到预测执行时间；调度模块，用于根据预测执行时间，确定目标推理作业请求所需要进入的目标优先级队列；调度模块，还用于从多个优先级队列中，选择一个或多个推理作业请求发送给GPU集群；GPU集群包括：分布式执行模块，用于接收调度模块发送的推理作业请求，执行推理作业请求所对应的推理作业，得到推理结果；内存管理模块，用于管理分布式执行模块执行推理作业的过程中产生的中间状态数据。

Description

一种服务器无感知的大语言模型推理系统、方法和设备

技术领域

本申请涉及人工智能技术领域，特别是一种服务器无感知的大语言模型推理系统、方法和设备。

背景技术

推理服务对于基于大语言模型的交互式人工智能应用至关重要。对于交互式人工智能应用来说，大语言模型的推理工作完成时间越低，该应用于用户之间的交互越顺畅，用户的体验效果就越好。

然而，大语言模型的规模和复杂性给推理服务基础设施带来了巨大的压力。大语言模型的推理过程遵循一个自回归模式，这使得其每一次的推理执行时间无法被提前预测。而现有的推理服务解决方案，主要是为残差卷积网络等确定性模型推理工作而设计。它们依靠精确的执行时间分析来做出调度决策，这对于执行时间不固定的大语言模型推理来说是行不通的。

因此，有必要开发一种服务器无感知的大语言模型推理系统、方法和设备，以实现对大语言模型的推理作业调度，提高推理作业效率。

发明内容

鉴于上述问题，本申请实施例提供了一种服务器无感知的大语言模型推理系统、方法和设备，以便克服上述问题或者至少部分地解决上述问题。

本申请实施例第一方面提供了一种服务器无感知的大语言模型推理系统，所述系统包括：调度器和GPU集群；

所述调度器包括：

作业分析模块，用于对接收到的目标推理作业请求，进行信息预测，得到预测执行时间，所述预测执行时间表示，执行目标推理作业中的第一次迭代所需要的时间；

调度模块，用于根据所述预测执行时间，确定所述目标推理作业请求所需要进入的目标优先级队列，所述目标优先级队列为所述调度模块维护的多个优先级队列中的一个；

所述调度模块，还用于从所述多个优先级队列中，选择一个或多个推理作业请求发送给所述GPU集群；

所述GPU集群包括：

分布式执行模块，用于接收所述调度模块发送的所述一个或多个推理作业请求，执行所述一个或多个推理作业请求所对应的推理作业，得到推理结果；大语言模型通过服务器无感知的方式部署在所述分布式执行模块中；

所述内存管理模块，用于管理所述分布式执行模块执行推理作业的过程中产生的中间状态数据。

在一种可选的实施方式中，所述作业分析模块，包括：

信息获取子模块，用于获取所述GPU集群的硬件参数信息、所述大语言模型的模型参数量信息和所述目标推理作业的第一次迭代的输入长度信息；

分析子模块，用于根据所述信息获取子模块所获取到的信息，进行信息预测，得到所述预测执行时间。

在一种可选的实施方式中，每个所述优先级队列预先设定有一个降级阈值，按照优先级从高到低的顺序，所述降级阈值按照预设比例逐渐增大，所述调度模块，包括：

比较子模块，用于比较所述预测执行时间和每个所述优先级队列的降级阈值；

队列确定子模块，用于将所述降级阈值大于所述预测执行时间的优先级队列中，所述降级阈值最小的优先级队列确定为所述目标优先级队列；

第一调度子模块，用于将所述目标推理作业请求放入所述目标优先级队列。

在一种可选的实施方式中，所述内存管理模块，还用于监控正在执行的各个推理作业的执行时长，并将所述执行时长实时发送至所述调度模块；

所述调度模块还用于，在所述执行时长超出了所在优先级队列的降级阈值的情况下，将所述执行时长对应的推理作业请求降级至优先级更低一级的优先级队列中。

在一种可选的实施方式中，所述调度模块，还用于：

每隔预设时长，检测每个处于等待状态的推理作业请求的等待时长；

在所述等待时长超出预设晋升阈值的情况下，将该推理作业请求移动至优先级最高的优先级队列中。

在一种可选的实施方式中，所述调度模块还包括：

选择子模块，用于根据所述GPU集群的内存容量信息，从优先级最高的优先级队列中，选择多个推理作业请求；

第二调度子模块，用于将所述多个推理作业请求发送至所述分布式执行模块。

在一种可选的实施方式中，所述分布式执行模块在执行推理作业时，是按照张量并行和/或流水线并行两种方式执行的。

在一种可选的实施方式中，所述内存管理模块还用于，将进行降级的推理作业请求的中间状态数据，作为中间推理结果发送给用户终端。

本申请实施例第二方面还提供了一种大语言模型推理方法，所述方法包括：

对接收到的目标推理作业请求，进行信息预测，得到预测执行时间，所述预测执行时间表示，执行目标推理作业中的第一次迭代所需要的时间；

根据所述预测执行时间，确定所述目标推理作业请求所需要进入的目标优先级队列，所述目标优先级队列为所述调度模块维护的多个优先级队列中的一个；

从所述多个优先级队列中，选择一个或多个推理作业请求；

执行所述一个或多个推理作业请求所对应的推理作业，得到推理结果；

管理执行推理作业的过程中产生的中间状态数据。

在一种可选的实施方式中，所述对接收到的目标推理作业请求，进行信息预测，得到预测执行时间，包括：

获取GPU集群的硬件参数信息、大语言模型的模型参数量信息和所述目标推理作业的第一次迭代的输入长度信息；

根据所述信息获取子模块所获取到的信息，进行信息预测，得到所述预测执行时间。

在一种可选的实施方式中，每个所述优先级队列预先设定有一个降级阈值，按照优先级从高到低的顺序，所述降级阈值按照预设比例逐渐增大，所述根据所述预测执行时间，确定所述目标推理作业请求所需要进入的目标优先级队列，包括：

比较所述预测执行时间和每个所述优先级队列的降级阈值；

将所述降级阈值大于所述预测执行时间的优先级队列中，所述降级阈值最小的优先级队列确定为所述目标优先级队列；

将所述目标推理作业请求放入所述目标优先级队列。

在一种可选的实施方式中，所述方法还包括：

监控正在执行的各个推理作业的执行时长；

在所述执行时长超出了所在优先级队列的降级阈值的情况下，将所述执行时长对应的推理作业请求降级至优先级更低一级的优先级队列中。

在一种可选的实施方式中，所述方法还包括：

根据所述GPU集群的内存容量信息，从优先级最高的优先级队列中，选择多个推理作业请求。

在一种可选的实施方式中，所述方法还包括：

在执行推理作业时，是按照张量并行和/或流水线并行两种方式执行的。

在一种可选的实施方式中，所述方法还包括：将进行降级的推理作业请求的中间状态数据，作为中间推理结果发送给用户终端。

本申请实施例第三方面还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行时实现如本申请实施例第二方面所述的大语言模型推理方法的步骤。

本申请实施例提供的一种服务器无感知的大语言模型推理系统，所述系统包括：调度器和GPU集群；所述调度器包括：作业分析模块，用于对接收到的目标推理作业请求，进行信息预测，得到预测执行时间，所述预测执行时间表示，执行目标推理作业中的第一次迭代所需要的时间；调度模块，用于根据所述预测执行时间，确定所述目标推理作业请求所需要进入的目标优先级队列，所述目标优先级队列为所述调度模块维护的多个优先级队列中的一个；所述调度模块，还用于从所述多个优先级队列中，选择一个或多个推理作业请求发送给所述GPU集群；所述GPU集群包括：分布式执行模块，用于接收所述调度模块发送的所述一个或多个推理作业请求，执行所述一个或多个推理作业请求所对应的推理作业，得到推理结果；大语言模型通过服务器无感知的方式部署在所述分布式执行模块中；所述内存管理模块，用于管理所述分布式执行模块执行推理作业的过程中产生的中间状态数据。

本申请实施例有益效果在于：

一方面，本申请利用作业分析模块，用于对接收到的目标推理作业请求，进行信息预测，得到预测执行时间。针对大语言模型每次执行推理作业的时间难以预测的问题，本申请利用相关信息对该推理作业的第一次迭代所需要的时间进行预测，将第一次迭代所需要的时间作为该推理作业的预测执行时间。基于该预测执行时间，对推理作业进行调度，以提高大语言模型作业效率。

另一方面，本申请利用多个优先级队列，根据不同的预测执行时间，将推理作业调度至优先级不同的队列中，扩展了经典的多级反馈队列调度策略，将推理作业分为不同优先级，避免了执行时间特别长的推理作业优先处理导致的队头堵塞问题，同时避免了频繁降级带来的开销，进一步提高推理作业执行效率。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种服务器无感知的大语言模型推理系统的结构示意图；

图2是本申请实施例提供的一种优先级队列的分布示意图；

图3是本申请实施例提供的一种大语言模型推理方法的步骤流程图；

图4是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例，然而应当理解，可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本申请，并且能够将本申请的范围完整的传达给本领域的技术人员。

大型语言模型的进步为各种领域提供了新的可能性，并引发了新一代的交互式人工智能应用。例如ChatGPT，该应用使用户能够以对话的方式与人工智能代理互动，以解决从语言翻译到软件工程的任务。在大语言模型的应用中，推理服务对于基于大语言模型的交互式人工智能应用至关重要。这些应用的互动性要求大语言模型推理的工作完成时间要尽可能低，以便提供有吸引力的用户体验。例如，用户希望他们对ChatGPT的输入能立即得到回应。

然而，大语言模型的规模和复杂性给推理服务基础设施带来了巨大的压力。在相关技术中，推理服务解决方案主要是为残差卷积网络等确定性模型推理工作而设计。它们依靠精确的执行时间分析来做出调度决策，这对于执行时间不固定的大语言模型推理来说是行不通的。ORCA模型是目前最先进的大语言模型推理解决方案。该解决方案提出了迭代级调度，在每个迭代结束时，可以在当前处理批次中添加新的作业或删除已完成的作业。然而，该解决方案使用先到先得（First Come First Serve，FCFS）的调度策略来处理推理作业。一旦作业被调度，就会一直运行，直到完成。需要知道的是，这种先到先得的调度策略有队头阻塞的问题。这个问题对于大语言模型推理作业来说尤其严重，因为大语言模型的巨量参数通常会带来较长的绝对执行时间。一个有很长的输出长度的大语言模型推理作业，会运行很长的时间从而阻塞之后短作业的处理。

鉴于上述问题，本申请实施例提出了一种服务器无感知的大语言模型推理系统、方法和设备，以解决上述大语言模型的执行时间难以预测导致的推理作业调度困难的问题，以达到更高的推理作业执行效率，获得更好的用户体验。下面结合附图，通过一些实施例及其应用场景对本申请实施例提供的向量查询方法进行详细地说明。

本实施例提出了一种服务器无感知的大语言模型推理系统，参照图1，图1示出了一种服务器无感知的大语言模型推理系统的结构示意图，如图1所示，该系统包括：调度器和GPU集群；

所述调度器包括：

作业分析模块，用于对接收到的目标推理作业请求，进行信息预测，得到预测执行时间，所述预测执行时间表示，执行目标推理作业中的第一次迭代所需要的时间。

调度模块，用于根据所述预测执行时间，确定所述目标推理作业请求所需要进入的目标优先级队列，所述目标优先级队列为所述调度模块维护的多个优先级队列中的一个。

所述调度模块，还用于从所述多个优先级队列中，选择一个或多个推理作业请求发送给所述GPU集群。

所述GPU集群包括：

分布式执行模块，用于接收所述调度模块发送的所述一个或多个推理作业请求，执行所述一个或多个推理作业请求所对应的推理作业，得到推理结果；大语言模型通过服务器无感知的方式部署在所述分布式执行模块中。

在本实施例中，由调度器中的作业分析模块接收用户输入的目标推理作业请求。对于大语言模型推理系统来说，需要同时处理不同用户发送的多个推理作业请求。每一个推理作业请求，对应地，需要执行一次推理作业，以得到一个推理结果，该过程视为大语言模型推理系统的一次完整的推理服务。对于每接收到的任意一个推理作业请求，将其作为目标推理作业请求，进行信息预测，得到该请求对应的目标推理作业的预测执行时间。

预测执行时间，表示作业分析模块基于相关信息，预测得到的，GPU集群执行该目标推理请求所对应的目标推理作业所需要的时间。针对推理作业时间不可知这一问题，本实施例将预测的GPU集群执行该目标推理作业时，进行第一次迭代所需要的时间，作为该目标推理作业的预测执行时间。

大语言模型的推理作业过程遵循自回归模式。具体的，大语言模型输入是一个字符序列，通常被称为提示(prompt)。大语言模型会处理输入字符序列，并输出下一个字符的概率分布来进行采样。通常把对一个输出字符的处理和采样过程称为一次迭代。在用大型语料库训练模型后，大语言模型能够高质量地完成语言任务。例如，当输入字符序列 “废寝忘”的情况下，模型输出的概率分布中“食”应该比“一”拥有更高的概率。在经过第一轮迭代之后，生成的字符会被添加到初始输入的字符序列中，并作为一个整体送入模型以生成下一个字符。这个生成过程将持续进行，直到生成一个特殊的代表序列的结束的字符或者达到预先定义的最大输出长度。这个推理过程与传统的深度学习模型完全不同，后者的执行时间通常是确定的，而且是高度可预测的。在大语言模型中，尽管每次迭代的执行仍然持有这样的属性，但迭代的数量（即输出长度）是未知的，这使得一个推理作业的总执行时间是不可预测的。

为了解决上述问题，本申请实施例利用了大语言模型推理作业半信息感知的特性。具体的，大语言模型推理作业的关键区别在于，大语言模型推理是半信息不可知的，也就是说，虽然输出长度无法预先知道，但输入的句子或字符序列的长度是已知的。基于此，本实施例的作业分析模块会提前根据部署的模型和硬件得到作业在不同输入长度下的迭代时间，为之后的调度决策提供信息。

在一种可选的实施方式中，所述作业分析模块，包括：

在本申请实施例中，虽然推理作业的迭代次数（即输出长度）不能提前知道，但每个迭代的执行时间是可以预测的。迭代时间主要是由一些关键参数信息决定的，其中包括：GPU集群的硬件参数信息、模型参数量信息和作业输入长度。当作业分析模块接收到目标推理请求后，可以通过信息获取子模块得到这些信息，然后利用分析子模块基于上述信息预测出第一次迭代所需要的时间。

由于大语言模型推理的自回归模式，进行第一次迭代的输入长度决定了生成第一个输出字符的执行时间。对于一个拥有长输入和短输出的作业，输出第一个字符的执行时间可能支配整个作业的执行时间。具体的，第一次迭代的时间（即生成第一个输出字符的执行时间）通常比之后的迭代时间要长，并且随着输入序列长度的增加，第一次迭代的时间大致以线性方式增长，而之后迭代时间的增长可以忽略不计。这是通过内存管理的缓存优化实现的。在第一次迭代中，所有输入字符的键值张量都需要被计算和缓存，所需要的时间较长。而在接下来的迭代中，输入字符中只有新生成的字符的键值张量需要计算，其他的输入字符则从内存管理模块的键值缓存中直接加载，所以需要进行计算的字符量变少了，迭代所需要的时间也相应变少。

在本实施例中，作业分析模块可以通过提前多次执行不同输入长度以及输出长度的作业并采样的方式得到作业信息，该作业信息中包括了执行对应的输出长度的作业所花费的总时间，将多次执行所得到的数据作为训练数据集完成对作业分析模块的训练。由此，利用大语言模型推理服务半信息不可知的特性，对于之后提交的实际推理作业，虽然总的迭代次数是无法确定的，但对于每次迭代的时间却可以通过作业分析模块的信息准确预测。

在本实施例中，在作业分析模块计算得到预测实行时间（预测出的该目标推理作业的第一次迭代所需要的时间）后，将该时间信息发送给调度模块，由调度模块根据预测实行时间，将目标推理请求放置在适合的优先级队列中。调度模块可以同时维护多个不同优先级的优先级队列，从而按照优先级进行调度。

在相关技术中，为了优化作业的平均完成时间，主要采用经典的最短任务优先策略。然而，由于大语言模型推理作业的总执行时间是未知的，所以在本实施例中不能直接应用最短任务优先策略。多级反馈队列（Multi-Level Feedback Queue,MLFQ），是由多个队列组成，每个队列都有不同的优先级。一个到达的作业首先进入高优先级队列，如果它在降级阈值之后没有完成，就会被降级到下一级队列，降级阈值是预设的可调整参数。高优先级的队列通常有较短的降级阈值。基于此，多级反馈队列可以在作业信息不可知的情况下优化平均作业完成时间，减少作业转换。

在本实施例中，利用多级反馈队列,设置多个优先级队列，使得每个优先级队列预先设定有一个降级阈值，该降级阈值表示该队列中的所有作业的最长执行时间，相邻两个优先级队列的降级阈值的比值被一个预设的超参数所控制，按照优先级从高到低的顺序，所述降级阈值按照预设比例逐渐增大，若某一个推理作业的执行时间超出该降级阈值，则表示该推理作业不再适合这一个优先级队列，需要对其进行降级，将其降级至优先级更低的队列中。

虽然多级反馈队列不需要作业执行的先验知识，但它并不适合大预言模型的推理服务。一个输入序列长度较长的作业的第一次迭代时间可能超过最高优先级队列的降级阈值。当作业被调度时，它将在第一次迭代的中间用完阈值。在此情况下，如果调度器抢占作业，中间的执行结果必须放弃并在以后重新计算，这就浪费了计算资源和时间。如果调度器不抢占该作业，可能再次面临队头阻塞的问题。针对此问题，本实施例中的调度模块在多级反馈队列的基础上，拓展性地提出了跳跃连接的技术方案。

在本实施例中，每个到达的推理作业请求，不是直接进入最高优先级的队列，而是通过比较子模块，比较该推理作业请求的预测执行时间和每个优先级队列的降级阈值，当该推理作业请求的预测执行时间（即对应的推理作业的第一个输出字符的执行时间）大于了某个优先级队列的降级阈值时，则排除该优先级队列。

在本实施例中，将降级阈值大于预测执行时间的优先级队列中，降级阈值最小的优先级队列确定为目标优先级队列，将目标推理作业请求放入所述目标优先级队列中。示例性的，参照图2，图2示出了一种优先级队列的分布示意图，如图2所示，A队列优先级大于B队列，B队列优先级大于C队列，每个请求所对应的矩形长度表示该请求的预测执行时间长度。设优先级队列包括A队列（降级阈值为10秒），B队列（降级阈值为15秒），C队列（降级阈值为20秒），现接收到一个推理作业请求5，根据作业分析模块确定该推理作业请求5的预测执行时间为13秒，A队列不符合要求，将A队列排除，从B队列和C队列中选择降级阈值最小的B队列作为目标优先级队列，将该推理作业请求5（如图2中的请求5）放入B队列中。

基于上述方案，本申请实施例不是直接按照多级反馈队列将推理作业请求放入最高优先级的队列，而是根据预测执行时间，选择一个适当的队列，从而使得更优先的队列被跳过，避免在实际执行过程中，再进行降级操作，提高调度效率，并且节省了频繁降级所带来的开销。

在一种实施例中，所述内存管理模块，还用于监控正在执行的各个推理作业的执行时长，并将所述执行时长实时发送至所述调度模块；

在本实施例中，在采用跳跃连接的方案（将接收到的推理作业请求放入适当的优先级队列中）的基础上，还遵循了多级反馈队列调度技术。由GPU集群中的内存管理模块实时监控正在执行的各个推理作业的执行时长，并将获取到的执行时长实时发送至调度模块，由调度模块来判断，在执行时长超出了所在优先级队列的降级阈值的情况下，将该执行时长对应的推理作业请求降级至优先级更低一级的优先级队列中。示例性的，内存管理模块获取正在执行的多个推理作业E、F、G各自的执行时长，将执行时长发送给调度模块。设推理作业E已经执行30秒，而该推理作业E所在的优先级队列的降级阈值为20秒的情况下，判断得到推理作业E的执行时长超出了所在队列的降级阈值，需要将其进行降级，于是停止对该推理作业E的执行，将其对应的推理作业请求降级至优先级更低一级的优先级队列中。

在一种可选的实施方式中，所述调度模块，还用于：

在本实施例中，跳跃连接和降级的操作都可能会导致输入或输出长度较长的作业遭受饥饿。为了避免这种情况，调度模块可以定期重设个别推理作业请求的优先级。具体的，可以每隔预设时长，检测每个处于等待状态（尚未被GPU集群执行）的推理作业请求的等待时长，如果该推理作业请求的等待时长超出了预设晋升阈值，则表示该推理作业请求的等待时间过长，调度模块可以将该推理作业请求的优先级重新设置，即将该推理作业请求晋升到优先级最高的优先级队列中。

在本实施例中，调度模块可以每次从最高优先级队列中选择一个或多个推理作业请求发送给GPU集群，由GPU集群对接收到的多个推理作业请求进行处理，执行对应的推理作业。

在一种可选的实施方式中，所述调度模块还包括：

在本实施例中，GPU集群所能够处理的推理作业请求的量受到GPU内存容量的限制，调度模块会根据GPU集群的内存容量信息，从优先级最高的优先级队列中，选择多个推理作业请求发送至GPU集群的分布式执行模块，以进行推理作业。具体的，优先级最高的队列的降级阈值被设置为最小的迭代时间。可以由GPU集群中的内存管理模块实时地向调度器发送自身的内存容量信息，在调度模块需要进行调度时，根据最新接收到的内容容量信息，确定发送的推理作业请求数量，从而从最高优先级的队列中确定所需要发送的推理作业请求。此外，利用大语言模型推理的自回归特性，调度器会在每次迭代的粒度下进行调度。对于每一个推理作业每进行一次迭代，调度器对其进行一次调度，重新确定其所对应的优先级。

所述GPU集群包括：分布式执行模块，用于接收所述调度模块发送的所述一个或多个推理作业请求，执行所述一个或多个推理作业请求所对应的推理作业，得到推理结果；大语言模型通过服务器无感知的方式部署在所述分布式执行模块中。

在本实施例中，需要物理的GPU集群来支持大语言模型的实际运行，本实施例中的大语言模型通过服务器无感知的方式部署在分布式执行模块中的。通过服务器无感知的方式，用户只需要提供模型具体参数和服务质量的指标，就可以自动地完成大语言模型在物理的GPU集群中的实际部署和运维。分布式执行模块接收调度模块发送的一个或多个推理作业请求，从而分布式地执行请求所对应的推理作业，得到对应的推理结果。

在本实施例中，对于拥有超大参数量的大语言型模型，单张 GPU 无法承载其推理所需的计算和内存资源。分布式执行模块利用包括张量并行和流水线并行在内的并行化策略，用多张 GPU 执行分布式推理服务，从而提高对推理作业的执行效率。

大语言模型的性能在经验上和参数量高度相关。大语言模型的参数越多，其性能也越强。然而，相对应的，其内存使用量也与参数量成正比。例如，GPT-3175B 在以半精度存储时，仅保存参数就需要占用350GB的 GPU 内存，而在运行期间的中间状态则需要更多内存。因此，大语言模型经常需要被切分成多个部分，并以分布式的方式由多个 GPU 提供服务。

大语言模型是由定义在多维张量上的一系列算子组成的。张量并行将每个算子分割到多个设备上，每个设备并行地执行一部分计算。该方法需要额外的通信开销来分割输入并从参与计算的设备收集输出。张量并行扩大了单个作业可用的计算和内存，从而减少了每次迭代的执行时间。

流水线并行将大语言模型计算图中的算子分成多个阶段，并以流水线的方式在不同的设备上执行。在推理过程中，每个阶段计算整个计算图的一部分，并将中间结果并行地传送给下一个阶段。与张量并行相比，流水线并行需要较少的通信开销，而且还允许模型超过单个GPU的内存限制。

中间状态数据，表示在执行该推理作业过程中产生的数据，例如多次迭代过程中的输出结果，以及对该推理作业执行的相关信息，例如，该推理作业的执行时长信息。内存管理模块可以对每个推理作业执行过程中产生的中间状态数据进行管理和存储，以便于在需要时提供相关数据，以提高推理作业效率。

在本申请实施例中，对进行降级的推理作业请求，需要暂停对其的推理作业，重新将其放入优先级队列中，等待被提取。在再次提取该推理作业请求，执行对应的推理作业时，可以从内存管理模块中获取中间状态数据，从而在中间状态数据的基础上继续进行推理。对于此类被抢占的作业，内存管理模块可以将该推理作业请求的中间状态数据，即执行过程中产生的中间结果（输出的字符）作为中间推理结果，先返回给用户终端。相比于在整个作业完成后才返回所有结果，本申请实施例所提出的方法可以提高推理效率，从而优化用户体验。

本申请实施例设计了一个服务器无感知的大语言模型推理系统，该系统利用大语言模型推理的自回归模式来实现迭代级的抢占，并设计了一个新颖的跳跃连接多级反馈队列调度策略来解决队头阻塞的问题。该系统主要包含两个部分，分别是调度器和 GPU集群。其中，调度器负责对作业进行分析、决定调度方案并监控执行；GPU集群负责根据调度方案执行作业并管理中间结果。按照本申请实施例所述的服务器无感知的大语言模型推理系统，在不同参数量的大语言模型和作业负载上进行了评估。实验表明，与最先进的解决方案ORCA相比，作业的平均和长尾完成时间分别提高了5.1倍和6.4倍。

基于相同的技术构思，本申请实施例第二方面还提供了一种大语言模型推理方法，参照图3，图3示出了一种大语言模型推理方法的步骤流程图，如图3所示，所述方法包括：

步骤S301，对接收到的目标推理作业请求，进行信息预测，得到预测执行时间，所述预测执行时间表示，执行目标推理作业中的第一次迭代所需要的时间；

步骤S302，根据所述预测执行时间，确定所述目标推理作业请求所需要进入的目标优先级队列，所述目标优先级队列为所述调度模块维护的多个优先级队列中的一个；

步骤S303，从所述多个优先级队列中，选择一个或多个推理作业请求；

步骤S304，执行所述一个或多个推理作业请求所对应的推理作业，得到推理结果；

步骤S305，管理执行推理作业的过程中产生的中间状态数据。

比较所述预测执行时间和每个所述优先级队列的降级阈值；

将所述目标推理作业请求放入所述目标优先级队列。

在一种可选的实施方式中，所述方法还包括：

监控正在执行的各个推理作业的执行时长；

在一种可选的实施方式中，所述方法还包括：

基于相同的发明构思，本申请实施例还提出了一种服务器无感知计算平台，所述服务器无感知计算平台应用于实现本申请实施例第二方面公开的一种大语言模型推理方法中的步骤。

在一种可选的实施方式中，所述服务器无感知计算平台基于同构GPU计算服务器实现本申请实施例第二方面公开的一种大语言模型推理方法中的步骤。

在一种可选的实施方式中，所述服务器无感知计算平台基于多种异构GPU计算服务器和加速器组合的异构计算集群，实现本申请实施例第二方面公开的一种大语言模型推理方法中的步骤。

基于相同的发明构思，本申请实施例还提出了一种全栈式大语言模型推理服务部署系统，所述系统为大语言模型推理服务提供了调度算法层面的解决方案，以实现本申请实施例第二方面公开的一种大语言模型推理方法中的步骤，为集成的一个体系化的大语言模型部署、维护和服务系统。

本申请实施例还提供了一种电子设备，参照图4，图4是本申请实施例提出的电子设备的结构示意图。如图4所示，电子设备100包括：存储器110和处理器120，存储器110与处理器120之间通过总线通信连接，存储器110中存储有计算机程序，该计算机程序可在处理器120上运行，进而实现本申请实施例公开的一种大语言模型推理方法中的步骤。

本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序/指令，该计算机程序/指令被处理器执行时实现本申请实施例公开的一种大语言模型推理方法中的步骤。

本申请实施例还提供了一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现本申请实施例公开的一种大语言模型推理方法中的步骤。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本申请实施例是参照根据本申请实施例的方法、装置、电子设备和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种服务器无感知的大语言模型推理系统、方法和设备，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种服务器无感知的大语言模型推理系统，其特征在于，所述系统包括：调度器和GPU集群；

所述调度器包括：

所述GPU集群包括：

内存管理模块，用于管理所述分布式执行模块执行推理作业的过程中产生的中间状态数据。

2.根据权利要求1所述的服务器无感知的大语言模型推理系统，其特征在于，所述作业分析模块，包括：

3.根据权利要求1所述的服务器无感知的大语言模型推理系统，其特征在于，每个所述优先级队列预先设定有一个降级阈值，按照优先级从高到低的顺序，所述降级阈值按照预设比例逐渐增大，所述调度模块，包括：

4.根据权利要求3所述的服务器无感知的大语言模型推理系统，其特征在于，所述内存管理模块，还用于监控正在执行的各个推理作业的执行时长，并将所述执行时长实时发送至所述调度模块；

5.根据权利要求1所述的服务器无感知的大语言模型推理系统，其特征在于，所述调度模块，还用于：

6.根据权利要求1所述的服务器无感知的大语言模型推理系统，其特征在于，所述调度模块还包括：

7.根据权利要求1所述的服务器无感知的大语言模型推理系统，其特征在于，所述分布式执行模块在执行推理作业时，是按照张量并行和/或流水线并行两种方式执行的。

8.根据权利要求4所述的服务器无感知的大语言模型推理系统，其特征在于，所述内存管理模块还用于，将进行降级的推理作业请求的中间状态数据，作为中间推理结果发送给用户终端。

9.一种大语言模型推理方法，其特征在于，所述方法包括：

根据所述预测执行时间，确定所述目标推理作业请求所需要进入的目标优先级队列，所述目标优先级队列为调度模块维护的多个优先级队列中的一个；

从所述多个优先级队列中，选择一个或多个推理作业请求；

管理执行推理作业的过程中产生的中间状态数据。

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行时实现如权利要求9所述的大语言模型推理方法的步骤。