CN117744754A

CN117744754A - 大语言模型任务处理方法、装置、设备及介质

Info

Publication number: CN117744754A
Application number: CN202410182485.4A
Authority: CN
Inventors: 王强; 王国栋; 郑伟; 吴海胖; 马中柱
Original assignee: Zhejiang Tonghuashun Intelligent Technology Co Ltd
Current assignee: Zhejiang Tonghuashun Intelligent Technology Co Ltd
Priority date: 2024-02-19
Filing date: 2024-02-19
Publication date: 2024-03-22
Anticipated expiration: 2044-02-19
Also published as: CN117744754B

Abstract

本申请公开了一种大语言模型任务处理方法、装置、设备及介质，涉及计算机技术领域，包括：将当前待处理任务输入至目标共享模型中，以便所述目标共享模型输出与所述当前待处理任务对应的参考提示词；对所述当前待处理任务进行任务分解，以得到若干个待处理子任务；基于所述参考提示词，并利用目标策略网络生成与各个所述待处理子任务分别对应的目标提示词；利用各个所述目标提示词对各个所述待处理子任务进行处理，以得到所述待处理子任务的子处理结果，并将各个所述子处理结果进行组合，以得到所述当前待处理任务的目标处理结果。本申请实现自动化分解当前待处理任务以及生成目标提示词，能够提高任务分解、提示词生成的效率与可靠度。

Description

大语言模型任务处理方法、装置、设备及介质

技术领域

本发明涉及计算机技术领域，特别涉及大语言模型任务处理方法、装置、设备及介质。

背景技术

大语言模型（Large Language Model，即LLM）是一种强大的自然语言处理模型，如GPT-3，它基于深度神经网络架构，并通过无监督学习从大规模文本数据中学习语言的概率分布。LLM在生成文本方面表现出色，可以产生具有一定连贯性和语义准确性的输出，然而，LLM在处理复杂任务时面临挑战，因为它需要准确的指导信息或提示来生成有针对性的输出。

小样本提示是一种解决任务的方法，特别适用于few-shot（小样本）学习场景，其中只有很少的标记样本可供学习。在小样本提示方法中，模型通过提供有限数量的示例和提示来学习和推断未知任务。这种方法的优势在于可以通过合理的指导信息来帮助LLM在新任务上进行泛化，并在有限数据情况下获得较好的性能。此外，现有的分解提示（Decomposed Prompting）方法被应用于将复杂任务分解为更小的子任务，并通过为每个子任务设计相应的Prompt（提示信息）来引导LLM生成相关的输出。分解提示方法的核心思想是将大任务分解为更容易处理的子任务，并为每个子任务设计适当的提示，以引导LLM生成符合预期的输出。这样做的目的是降低任务的复杂性，使LLM能够更好地理解和执行任务。

现有技术中，需要手动设计sub-tasks（多个子任务）和Prompt，一方面容易引入主观偏差，手动设计取决于设计者的经验、知识和主观判断，可能会导致不准确的分解和任务执行；另一方面，手动设计sub-tasks和Prompt需要耗费大量的时间和人力成本，特别是对于复杂的任务，确定合适的sub-tasks和设计相应的Prompt可能是一项困难和耗时的工作。

综上可见，如何提高任务分解、提示词生成的效率与可靠度是本领域有待解决的问题。

发明内容

有鉴于此，本发明的目的在于提供一种大语言模型任务处理方法、装置、设备及介质，能够提高任务分解、提示词生成的效率与可靠度。其具体方案如下：

第一方面，本申请公开了一种大语言模型任务处理方法，包括：

将当前待处理任务输入至目标共享模型中，以便所述目标共享模型输出与所述当前待处理任务对应的参考提示词；

对所述当前待处理任务进行任务分解，以得到若干个待处理子任务；

基于所述参考提示词，并利用目标策略网络生成与各个所述待处理子任务分别对应的目标提示词；

利用各个所述目标提示词对各个所述待处理子任务进行处理，以得到所述待处理子任务的子处理结果，并将各个所述子处理结果进行组合，以得到所述当前待处理任务的目标处理结果。

可选的，所述基于所述参考提示词，并利用目标策略网络生成与各个所述待处理子任务分别对应的目标提示词之前，还包括：

采集第一训练数据；其中，所述第一训练数据包括若干个第一训练子任务以及各个所述第一训练子任务的第一处理结果；

基于循环神经网络或转换器结构设置初始策略网络，并确定所述初始策略网络的状态表示和动作空间；

利用策略梯度算法和所述第一训练数据对所述初始策略网络进行迭代训练，得到训练后策略网络；

获取所述训练后策略网络生成的预设评估任务的评估提示词，并对所述评估提示词进行质量评估，以得到所述评估提示词的质量分数，基于所述质量分数对所述训练后策略网络进行参数优化，以得到目标策略网络。

可选的，所述利用策略梯度算法和所述第一训练数据对所述初始策略网络进行迭代训练，得到训练后策略网络，包括：

将所述初始策略网络确定为当前策略网络；

将所述第一训练数据输入至所述当前策略网络，以收集与所述当前策略网络对应经验数据，并基于所述经验数据获取优势函数值；其中，所述经验数据包括与所述当前策略网络对应的当前状态表示、当前动作空间以及当前奖励数据；

基于所述优势函数值，并利用策略梯度算法对所述当前策略网络的参数进行更新，以得到下一策略网络；

判断所述下一策略网络是否满足预设停止训练条件；

若不满足，则将所述下一策略网络更新为当前策略网络，并重新跳转至所述将所述第一训练数据输入至所述当前策略网络的步骤；

若满足，则将所述下一策略网络确定为训练后策略网络。

可选的，所述将当前待处理任务输入至目标共享模型中，以便所述目标共享模型输出与所述当前待处理任务对应的参考提示词，包括：

将当前待处理任务输入至目标共享模型中，以便所述目标共享模型基于历史子任务库输出与所述当前待处理任务对应的参考提示词；

相应的，所述利用各个所述目标提示词对各个所述待处理子任务进行处理，以得到所述待处理子任务的子处理结果之后，还包括：

将各个所述待处理子任务确定为历史子任务，并将所述历史子任务及其所述目标提示词和所述子处理结果存储至所述历史子任务库中。

可选的，所述将当前待处理任务输入至目标共享模型中之前，还包括：

构建初始共享模型，并采集第二训练数据；其中，所述第二训练数据包括若干个第二训练子任务以及与各个所述第二训练子任务对应的标注提示词和第二处理结果；

将所述第二训练数据输入至所述初始共享模型，以得到最小化的平均损失函数值，并将与所述最小化的平均损失函数值对应的共享模型确定为目标共享模型。

可选的，所述对所述当前待处理任务进行任务分解，以得到若干个待处理子任务，包括：

利用K-means聚类算法对所述当前待处理任务进行任务分解，以得到所述当前待处理任务的若干个初始子任务；

利用图分割算法对各个所述初始子任务进行去重，以得到若干个待处理子任务。

可选的，所述利用K-means聚类算法对所述当前待处理任务进行任务分解，以得到所述当前待处理任务的若干个初始子任务，包括：

构建所述当前待处理任务的相似度矩阵和度矩阵；

基于所述相似度矩阵和所述度矩阵获取拉普拉斯矩阵，并获取所述拉普拉斯矩阵的表示矩阵；

将所述拉普拉斯矩阵的表示矩阵输入至K-means聚类算法中，以得到所述当前待处理任务的若干个初始子任务。

第二方面，本申请公开了一种大语言模型任务处理装置，包括：

共享处理模块，用于将当前待处理任务输入至目标共享模型中，以便所述目标共享模型输出与所述当前待处理任务对应的参考提示词；

任务分解模块，用于对所述当前待处理任务进行任务分解，以得到若干个待处理子任务；

提示词获取模块，用于基于所述参考提示词，并利用目标策略网络生成与各个所述待处理子任务分别对应的目标提示词；

结果获取模块，用于利用各个所述目标提示词对各个所述待处理子任务进行处理，以得到所述待处理子任务的子处理结果，并将各个所述子处理结果进行组合，以得到所述当前待处理任务的目标处理结果。

第三方面，本申请公开了一种电子设备，包括：

存储器，用于保存计算机程序；

处理器，用于执行所述计算机程序，以实现前述公开的大语言模型任务处理方法的步骤。

第四方面，本申请公开了一种计算机可读存储介质，用于存储计算机程序；其中，所述计算机程序被处理器执行时实现前述公开的大语言模型任务处理方法的步骤。

本申请有益效果为：本申请包括：将当前待处理任务输入至目标共享模型中，以便所述目标共享模型输出与所述当前待处理任务对应的参考提示词；对所述当前待处理任务进行任务分解，以得到若干个待处理子任务；基于所述参考提示词，并利用目标策略网络生成与各个所述待处理子任务分别对应的目标提示词；利用各个所述目标提示词对各个所述待处理子任务进行处理，以得到所述待处理子任务的子处理结果，并将各个所述子处理结果进行组合，以得到所述当前待处理任务的目标处理结果。由此可见，本申请自动化进行当前待处理任务的分解以及自动化生成各个待处理子任务的目标提示词，避免人工进行任务分解和提示词生成所引起的主观偏差，减少人工所需的大量时间；进一步的，本申请还引入了目标共享模型，目标共享模型就是共享各个历史子任务，实现各个任务之间的共享，那么根据目标共享模型输出的参考提示词生成目标提示词，能够使得目标提示词更加准确可靠，能够提高任务分解、提示词生成的效率与可靠度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请公开的一种大语言模型任务处理方法流程图；

图2为本申请公开的一种大语言模型任务处理装置结构示意图；

图3为本申请公开的一种电子设备结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

现有技术中，需要手动设计sub-tasks和Prompt，一方面容易引入主观偏差，手动设计取决于设计者的经验、知识和主观判断，可能会导致不准确的分解和任务执行；另一方面，手动设计sub-tasks和Prompt需要耗费大量的时间和人力成本，特别是对于复杂的任务，确定合适的sub-tasks和设计相应的Prompt可能是一项困难和耗时的工作。

为此本申请相应的提供了一种大语言模型任务处理方案，能够提高任务分解、提示词生成的效率与可靠度。

参见图1所示，本申请实施例公开了一种大语言模型任务处理方法，包括：

步骤S11：将当前待处理任务输入至目标共享模型中，以便所述目标共享模型输出与所述当前待处理任务对应的参考提示词。

本实施例中，所述将当前待处理任务输入至目标共享模型中之前，还包括：构建初始共享模型，并采集第二训练数据；其中，所述第二训练数据包括若干个第二训练子任务以及与各个所述第二训练子任务对应的标注提示词和第二处理结果；将所述第二训练数据输入至所述初始共享模型，以得到最小化的平均损失函数值，并将与所述最小化的平均损失函数值对应的共享模型确定为目标共享模型。获取目标共享模型具体过程如下：

1）定义任务集：首先定义一个任务集，其中每个任务T_i是由其对应的输入输出对（x_i，y_i）组成，可以理解的是，任务集T中的各个任务T_i是大任务，即没有进行任务分解之前的任务。

2）定义sub-tasks集合：对于每个任务T_i，使用自动化方法将其分解为一组sub-tasks集合S_i：

；

式中，S_i，j表示T_i的第j个sub-tasks，即分解后的子任务，M_i表示任务T_i的第M个子任务。

3）定义共享模型：使用共享模型f来处理任务T_i，其输入为任务T_i的输入x_i（即第二训练子任务）和相应的Prompt P_i,j（即标注提示词），输出为预测的输出y_i（即第二处理结果）。具体地，f可以是一个神经网络模型，其中包含多个层，每个层都共享相同的权重。

4）定义损失函数：使用交叉熵损失函数来训练共享模型f。假设对于任务T_i的第j个sub-taskS_i，j，其对应的Prompt为P_i,j，那么损失函数为：

；

式中，θ表示共享模型f的参数，表示第i个任务的第j个sub-task的权重。

5）定义元学习算法：使用元学习算法来训练共享模型f的参数θ，以适应于多个任务。这个算法的输入是任务集合T和对应的sub-tasks集合S，输出是共享模型的参数θ。

6）训练元学习模型：使用元学习算法来训练模型参数。具体地，该算法首先从任务集合T中随机选择一些任务，并随机选择一些初始的Prompt，然后在这些任务上进行训练。训练的目标是最小化所有任务的平均损失，即：

；

式中，表示任务集合，t表示子任务，/>表示在任务t上的损失函数，/>表示策略网络的参数。

在每个训练步骤中，选择一个子任务t和一个Prompt p，然后使用元学习模型来生成该子任务的Prompt，从而生成模型的输出y_p。根据模型的输出，可以计算出相应的损失函数。然后，使用梯度下降来更新元学习模型的参数，即：

；

式中，θ_p表示使用Prompt p对LLM进行fine-tuning后得到的参数，表示在任务t中提示词p的损失函数，α表示学习率。

在训练完成后，元学习模型可以用来自动地生成每个任务的Prompt。具体地，对于每个新任务，可以输入该任务的输入数据以及该任务的子任务集合，元学习模型可以根据这些信息自动生成一个Prompt集合，并输出给Decomposed Prompting框架使用。

在元学习算法中，可以使用基于梯度的元学习方法，例如MAML（Model-AgnosticMeta-Learning），其基本思想是通过在一组相似的任务上进行多次迭代训练，从而学习到一组模型初始化参数，这些参数可以快速地适应新任务。具体地，MAML的算法流程如下：

1）初始化模型参数θ。

2）从任务集合T_i中随机选择一些任务T_j，对于每个任务，将其分为训练集D_({train,j})和测试集D_({test,j})。

3）在训练集D_({train,j})上进行k次梯度下降，得到适应当前任务T_j的模型参数θ_j。

4）在测试集D_({test,j})上计算损失函数L(θ_j，D_{test,j})。

5）对于所有任务，可以计算一个损失函数，其中包括每个任务的损失和对共享模块的正则化惩罚。假设有K个任务，可以将损失函数表示为：

；

其中，θ_i表示第i个任务的模型参数，θ_shared表示共享模块的参数，表示元学习模型的参数，L_i是第i个任务的损失函数，R是对共享模块的正则化惩罚，λ是正则化系数。

元学习算法通过对φ的优化来最小化上述损失函数，进而使得所有任务的性能都得到提升。同时，元学习算法还可以通过对共享模块参数θ_shared的正则化，来避免过度拟合和提高模型的泛化性能。

在每一次迭代中，随机选择K个任务，并使用元学习算法对进行更新。对于每个任务，使用其对应的θ_i进行训练，并计算其损失/>。然后，计算所有任务的平均损失，并将其作为整个模型的损失。接下来，使用反向传播算法计算梯度，并根据优化器来更新模型的参数。这个过程可以反复迭代，直到模型收敛或达到预定的迭代次数。

本实施例中，所述将当前待处理任务输入至目标共享模型中，以便所述目标共享模型输出与所述当前待处理任务对应的参考提示词，包括：将当前待处理任务输入至目标共享模型中，以便所述目标共享模型基于历史子任务库输出与所述当前待处理任务对应的参考提示词。可以理解的是，当目标共享模型接收到新的待处理任务时，即当前待处理任务时，可以先从各个历史子任务中进行检索，以查找到相似或者相同的任务，并根据该相似或者相同的任务的提示词生成参考提示词，以便后续基于参考提示词进行目标提示词的生成，元学习方法通过学习任务之间的共同特征和关联性，将不同任务之间的共享知识和经验进行整合和推广，共享子任务和Prompt可以提高模型的泛化能力和任务处理效率，并避免重复和浪费。

步骤S12：对所述当前待处理任务进行任务分解，以得到若干个待处理子任务。

本实施例中，所述对所述当前待处理任务进行任务分解，以得到若干个待处理子任务，包括：利用K-means聚类算法对所述当前待处理任务进行任务分解，以得到所述当前待处理任务的若干个初始子任务；利用图分割算法对各个所述初始子任务进行去重，以得到若干个待处理子任务。为了避免手动设计 sub-tasks的主观偏差，可以使用自动化方法进行sub-tasks的设计。可以使用聚类算法自动将任务分解为合理的sub-tasks。在进行谱聚类后，可能会存在一些sub-tasks之间的重叠。为了解决这个问题，可以使用基于图分割的方法来对sub-tasks进行划分。具体来说，可以使用最大流最小割算法来将sub-tasks进行划分。将所有的sub-tasks看做节点，将sub-tasks之间的重叠看做边，将每个sub-task的大小看做每个节点的权重，然后运用最大流最小割算法将sub-tasks进行划分，从而避免重叠。

本实施例中，所述利用K-means聚类算法对所述当前待处理任务进行任务分解，以得到所述当前待处理任务的若干个初始子任务，包括：构建所述当前待处理任务的相似度矩阵和度矩阵；基于所述相似度矩阵和所述度矩阵获取拉普拉斯矩阵，并获取所述拉普拉斯矩阵的表示矩阵；将所述拉普拉斯矩阵的表示矩阵输入至K-means聚类算法中，以得到所述当前待处理任务的若干个初始子任务。具体过程如下：

1）构建相似度矩阵S和度矩阵D：首先需要根据任务的特点，设计一个相似度矩阵来表示任务中各个部分之间的相似性，（矩阵S表示同一个任务中各个子任务之间的相似度）例如可以使用余弦相似度或Jaccard系数（Jaccard similarity coefficient，即杰卡德系数）来度量。相似度矩阵可以写成矩阵S：

S=[S_ij]n×n；

式中，S_i,j表示任务中第i个部分和第j个部分的相似度，n表述该任务中子任务的数量。

2）构建拉普拉斯矩阵：拉普拉斯矩阵L是一个对称矩阵，可以通过计算度矩阵D和相似度矩阵S来得到：L=D-S。

3）计算拉普拉斯矩阵的特征向量：使用拉普拉斯矩阵的特征向量进行谱聚类。具体来说，将拉普拉斯矩阵的k个最小的非零特征向量u₁,u₂,…u_k作为新的表示，得到一个k维的表示矩阵，即拉普拉斯矩阵的表示矩阵U：

U=[u₁,u₂,…u_k]n×k；

4）将拉普拉斯矩阵的表示矩阵U输入至K-means聚类算法中，以得到当前待处理任务的k个初始子任务，K-means聚类的目标是最小化每个子任务内部的平均距离，即：

；

其中，C_i表示第i个子任务的集合，μ_i表示C_i中所有点的均值。

步骤S13：基于所述参考提示词，并利用目标策略网络生成与各个所述待处理子任务分别对应的目标提示词。

为了避免手动设计提示词所带来的时间和人力成本，可以开发一个自动 Prompt生成器，该生成器可以根据子任务的特点自动生成相应的Prompt。可以使用策略网络来生成Prompt。

本实施例中，所述基于所述参考提示词，并利用目标策略网络生成与各个所述待处理子任务分别对应的目标提示词之前，还包括：采集第一训练数据；其中，所述第一训练数据包括若干个第一训练子任务以及各个所述第一训练子任务的第一处理结果；基于循环神经网络或转换器结构设置初始策略网络，并确定所述初始策略网络的状态表示和动作空间；利用策略梯度算法和所述第一训练数据对所述初始策略网络进行迭代训练，得到训练后策略网络；获取所述训练后策略网络生成的预设评估任务的评估提示词，并对所述评估提示词进行质量评估，以得到所述评估提示词的质量分数，基于所述质量分数对所述训练后策略网络进行参数优化，以得到目标策略网络。具体过程如下所示：

1）数据准备：收集包含子任务的训练数据集，即采集第一训练数据，每个数据样本包括子任务的输入和输出。其中，数据收集方法：可以通过人工标注或者从现有的数据集中提取子任务的输入和输出来收集数据，确保数据集涵盖了各种不同类型的子任务。

2）构建策略网络：设计一个神经网络模型作为策略网络，用于生成Prompt。可以使用基于循环神经网络或Transformer（转换器）等结构，其中，循环神经网络例如为LSTM（Long Short-Term Memory，即长短时记忆网络）。

3）定义状态表示：将子任务的输入转换为适合策略网络的状态表示。可以使用词嵌入（Word Embedding）或其他表示方法来编码输入。

4）定义动作空间：确定策略网络的动作空间，即可选的Prompt的组成部分。这些部分可以是固定的，也可以根据任务进行扩展。例如，对于回答问题任务，动作空间可以包括问题前缀、问题后缀、选项提示等。每个动作的选择可以用离散的概率分布表示，可以使用Softmax函数对概率进行归一化。

5）定义策略网络的训练目标：使用强化学习方法（如策略梯度算法）定义策略网络的训练目标。目标是最大化生成的Prompt与子任务输出之间的相似性。

6）训练策略网络：使用策略梯度算法（如PPO算法，即Proximal PolicyOptimization，近端策略优化算法）对策略网络进行训练。

7）生成Prompt：训练完成的策略网络可以用于生成Prompt，给定子任务的输入，策略网络通过选择合适的动作来生成Prompt的各个组成部分。

8）评估生成的Prompt：使用生成的Prompt对子任务进行评估，可以通过与人工设计的Prompt进行对比或使用其他评估指标来衡量生成的Prompt的质量和适应性，也就是说，获取训练后策略网络生成的预设评估任务的评估提示词，并对评估提示词进行质量评估，以得到评估提示词的质量分数。

9）迭代优化：根据评估结果，对策略网络进行迭代优化，进一步提升生成的Prompt的质量和适应性，也即，基于质量分数对训练后策略网络进行参数优化，以得到目标策略网络。

本实施例中，所述利用策略梯度算法和所述第一训练数据对所述初始策略网络进行迭代训练，得到训练后策略网络，包括：将所述初始策略网络确定为当前策略网络；将所述第一训练数据输入至所述当前策略网络，以收集与所述当前策略网络对应经验数据，并基于所述经验数据获取优势函数值；其中，所述经验数据包括与所述当前策略网络对应的当前状态表示、当前动作空间以及当前奖励数据；基于所述优势函数值，并利用策略梯度算法对所述当前策略网络的参数进行更新，以得到下一策略网络；判断所述下一策略网络是否满足预设停止训练条件；若不满足，则将所述下一策略网络更新为当前策略网络，并重新跳转至所述将所述第一训练数据输入至所述当前策略网络的步骤；若满足，则将所述下一策略网络确定为训练后策略网络。在训练策略网络之前，还需要进行以下步骤：

1）定义策略网络的动作选择概率分布：

a_t~π_θ(a|s)；

式中，s表示的是策略网络的某一个当前状态(state)，策略网络通过当前状态来选择接下来的动作a(action)，π_θ(a|s)表示策略网络生成动作a的概率。

2）定义策略网络的优势函数：

A(s,a)=Q(s,a)-V(s)；

式中，Q(s,a)是动作-状态值函数（Action-Value Function），V(s)是状态值函数（Value Function）。

3）定义策略梯度的目标函数：

；

式中，表示在策略网络π_θ下，状态-动作对的期望。

定义相关函数后，开始训练策略网络，其中包括以下内容：

1）收集经验数据：使用当前策略网络与环境交互，收集一批经验数据，包括状态、动作和相应的奖励。

2）估计优势函数：根据收集的经验数据，估计优势函数的值，可以使用基于价值函数的方法（如Generalized Advantage Estimation，即广义优势估计）进行估计。

3）更新策略网络：基于估计的优势函数，使用策略梯度算法更新策略网络的参数，使得目标函数最大化。

4）重复以上步骤，进行多次迭代训练，直到满足预设停止训练条件，即达到预定的训练次数或收敛条件。

步骤S14：利用各个所述目标提示词对各个所述待处理子任务进行处理，以得到所述待处理子任务的子处理结果，并将各个所述子处理结果进行组合，以得到所述当前待处理任务的目标处理结果。

本实施例中，所述利用各个所述目标提示词对各个所述待处理子任务进行处理，以得到所述待处理子任务的子处理结果之后，还包括：将各个所述待处理子任务确定为历史子任务，并将所述历史子任务及其所述目标提示词和所述子处理结果存储至所述历史子任务库中。将各个待处理子任务作为历史子任务保存至历史子任务库中，并且其相关的子处理结果、目标提示词等均保存至历史子任务库中，以便进行目标共享模型进行下一次的参考提示词输出。

下面对本申请进行相应的说明。当利用基于小样本学习的LLM解决复杂任务并将其分解为子任务时，可以采取以下步骤：

1）确定复杂任务：首先明确需要解决的复杂任务。在这种情况下，复杂任务是将给定字符串中每个单词的首字母用空格连接起来。

2）设计子任务：根据复杂任务的特点，设计合适的子任务，以便将复杂任务分解为更简单的部分。在这个例子中，可以将复杂任务分解为两个子任务：split（拆分）和merge（合并）。

2.1）Split子任务：这个子任务的目标是将给定的字符串拆分成单词。可以设计一个问题和答案对，其中问题是要求将给定字符串拆分为单词，而答案是拆分后得到的单词列表。例如，Q1:"What are the words in 'Jack Ryan'?"，A1：[“Jack”，“Ryan”]。

2.2）Merge子任务：这个子任务的目标是将前一个子任务得到的单词的首字母合并起来。同样，可以设计一个问题和答案对，其中问题要求将单词的首字母合并，而答案是合并后的字符串。例如，Q2：“What is the first letter of #1？”（其中#1指的是前一个子任务得到的单词列表），A2：[“J”，“R”]。

3）构建Prompt：通过将子任务的问题和答案组合起来构建Prompt。在这个例子中，可以构建一个包含split和merge子任务的Prompt：

Q3：“Concatenate the first letter of every word in ‘Jack Ryan’ usingspaces”；

Split子任务：Q1：“What are the words in ‘Jack Ryan’？”，A1：[“Jack”，“Ryan”]；

Merge子任务：Q2:“What is the first letter of #1？”，A2:[“J”，“R”]；

4）LLM求解：使用基于小样本学习的LLM来求解复杂任务。将构建的Prompt提供给LLM，它将根据所学到的语言模型能力生成答案。在这个例子中，LLM将根据Prompt中的问题理解要求，并生成答案“J R”。

通过将复杂任务分解为子任务，并使用Prompt引导LLM进行学习和推理，能够利用小样本学习的LLM解决复杂任务。每个子任务都相对简单，LLM可以通过理解每个子任务的问题和答案来生成准确的答案。这种分解任务的方法能够提高模型的可理解性和解决复杂任务的能力。

在上述示例中，可以使用自动化方法来设计子任务，避免手动设计的主观偏差。以下是一种自动化子任务设计方法的举例：

1）数据准备：收集包含复杂任务和对应答案的训练数据集。对于每个训练样本，包括输入的复杂任务描述和输出的期望答案。例如输入：“Concatenate the first letterof every word in ‘Jack Ryan’ using spaces”，输出：“J R”。

2）特征提取：将复杂任务描述转换为适合机器学习算法处理的特征表示。可以使用词嵌入（Word Embedding）或其他特征提取方法将任务描述编码为向量表示。例如特征：[0.2，0.5，0.8，...，0.3]。

3）聚类算法应用：使用聚类算法（如K-means、层次聚类等）将特征向量进行聚类，将相似的任务描述归为一类。这样可以自动将任务分解为具有相似特征的子任务组。例如聚类结果：聚类1：[“What are the words in ‘Jack Ryan’？”]，聚类2：[“What is thefirst letter of #1？”]。

4）网络流或图分割算法：为了避免sub-tasks之间的重叠，可以使用网络流或图分割算法来解决。这些算法将确保每个子任务都是互不重叠的，且每个子任务都包含了完整的相关内容。对于上述示例中的任务，可以使用网络流算法或图分割算法来确保split和merge子任务之间没有重叠。

5）子任务生成：为每个聚类创建一个子任务。子任务的问题描述可以直接使用聚类的中心或代表性样本，答案则从对应的训练数据中获取。例如子任务1：Q1: “What arethe words in ‘Jack Ryan’？”，A1:[“Jack”，“Ryan”]、又如子任务2：Q2:“What is thefirst letter of #1？”，A2:[“J”，“R”]。

通过以上步骤，可以自动将复杂任务分解为合理的子任务。聚类算法帮助将任务描述相似的样本归类到同一组中，确保每个子任务具有一定的内聚性。这样一来，可以避免主观偏差，减少手动设计子任务所需的时间和人力成本。

在这个示例中，将复杂任务描述聚类为两个子任务：拆分子任务和合并子任务。通过自动化的子任务设计，能够更加客观地根据任务描述的相似性将其归类，并生成相应的子任务描述和答案。这种方法可以适用于不同类型的复杂任务，并且能够提高子任务的合理性和准确性。

通过以复杂任务：“Concatenate the first letter of every word in 'JackRyan' using spaces”为例，对本申请自动化完成任务分解进行说明：

1）数据准备：准备包含复杂任务和对应答案的训练数据集。对于每个训练样本，包括输入的复杂任务描述和输出的期望答案。例如输入：“Concatenate the first letterof every word in 'Jack Ryan' using spaces”，输出：“J R”。

2）子任务生成：首先，可以基于任务的语法和结构，设计一些可能的子任务类型。在这个例子中，可以考虑以下两种子任务类型：

子任务类型1:提取单词列表（Extract Word List）；

子任务类型2:提取单词的第一个字母（Extract First Letter）；

3）子任务模板生成：为每种子任务类型创建一个子任务模板，其中包含任务描述和相应的提示信息。模板可以使用特定的占位符来表示待填充的部分。例如子任务模板1:“Extract Word List”，对应的任务描述：“What are the words in '{input}'?”，提示为“Please provide a list of words separated by spaces”；又如示例子任务模板2:“Extract First Letter”，对应的任务描述：“What is the first letter of‘{input}’?”，提示为“Please provide the first letter of each word separated byspaces”。

4）子任务生成与提示分配：对于给定的复杂任务，将每个子任务模板中的占位符替换为任务的具体细节。同时，为每个子任务分配一个唯一的提示编号。例如子任务1:Q1：“What are the words in ‘Jack Ryan’？”，A1：[“Jack”，“Ryan”]，又如子任务2：Q2：“Whatis the first letter of #1？”，A2：[“J”，“R”]。

5）聚类算法应用：使用聚类算法（如K-means、层次聚类等）对生成的子任务进行聚类，将相似的子任务归为一类。聚类算法通过比较子任务之间的相似性，自动将它们分组，避免了手动设计子任务的主观偏差。例如聚类结果：聚类1：[Q1，A1]，聚类2：[Q2，A2]。

通过以上步骤，可以自动将复杂任务分解为合理的子任务，并为每个子任务生成相应的任务描述和提示信息。聚类算法的应用帮助将相似的子任务归类到同一组中，确保每个子任务组具有一定的内聚性。这样一来，可以避免手动设计子任务的主观偏差，并自动化地将任务分解为更小的、可管理的子任务，以提高任务的准确性和可解释性。

通过以复杂任务：“Concatenate the first letter of every word in ‘JackRyan’ using spaces”为例，对本申请自动化子prompt生成进行说明：

1）子任务识别：根据任务描述和预定义的子任务类型，识别出每个子任务，如“Extract Word List”和“Extract First Letter”。

2）策略网络设计：设计一个神经网络模型作为策略网络，用于生成与每个子任务相关的Prompt。网络的输入可以是子任务的描述或输入，输出是生成的Prompt。

3）数据准备：为策略网络准备训练数据集。对于每个子任务，准备包含子任务描述和期望的 Prompt 的训练样本。例如子任务描述为“What are the words in 'JackRyan'?”对应的期望Prompt为“Please provide a list of words separated byspaces.”。

4）状态表示：将子任务描述转换为适合策略网络的状态表示。可以使用词嵌入或其他表示方法来编码子任务描述。

5）动作空间定义：确定策略网络的动作空间，即可选的Prompt组成部分。根据子任务的特点，定义合适的动作空间。例如，在子任务“Extract Word List”中，动作空间可以包括问题前缀和提示格式；在子任务“Extract First Letter”中，动作空间可以包括问题前缀和期望的回答格式。

6）策略网络训练：使用训练数据集对策略网络进行训练。可以使用策略梯度方法来训练策略网络。训练的目标是最大化生成的Prompt与期望Prompt之间的相似性。

7）Prompt生成：训练完成的策略网络可以用于生成针对每个子任务的Prompt。给定子任务描述作为输入，策略网络通过选择合适的动作来生成Prompt。例如输入子任务描述为“What are the words in ‘Jack Ryan’?”，输出生成的Prompt为“Please provide alist of words separated by spaces.”。

通过上述步骤，可以自动化地生成与每个子任务相关的有效Prompt。策略网络通过学习任务特征和模式，能够根据子任务的特点生成准确和高效的指导信息。这种自动化Prompt生成的方法可以减少手动设计Prompt的时间和人力成本，并确保为每个子任务提供恰当的引导信息。

参见图2所示，本申请实施例公开了一种大语言模型任务处理装置，包括：

共享处理模块11，用于将当前待处理任务输入至目标共享模型中，以便所述目标共享模型输出与所述当前待处理任务对应的参考提示词；

任务分解模块12，用于对所述当前待处理任务进行任务分解，以得到若干个待处理子任务；

提示词获取模块13，用于基于所述参考提示词，并利用目标策略网络生成与各个所述待处理子任务分别对应的目标提示词；

结果获取模块14，用于利用各个所述目标提示词对各个所述待处理子任务进行处理，以得到所述待处理子任务的子处理结果，并将各个所述子处理结果进行组合，以得到所述当前待处理任务的目标处理结果。

进一步的，本申请实施例还提供了一种电子设备。图3是根据一示例性实施例示出的电子设备20结构图，图中的内容不能认为是对本申请的使用范围的任何限制。

图3为本申请实施例提供的一种电子设备的结构示意图。具体可以包括：至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中，所述存储器22用于存储计算机程序，所述计算机程序由所述处理器21加载并执行，以实现前述任一实施例公开的由电子设备执行的大语言模型任务处理方法中的相关步骤。

本实施例中，电源23用于为电子设备上的各硬件设备提供工作电压；通信接口24能够为电子设备创建与外界设备之间的数据传输通道，其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议，在此不对其进行具体限定；输入输出接口25，用于获取外界输入数据或向外界输出数据，其具体的接口类型可以根据具体应用需要进行选取，在此不进行具体限定。

其中，处理器21可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器21可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器21也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器21可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器21还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

另外，存储器22作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，其上所存储的资源包括操作系统221、计算机程序222及数据223等，存储方式可以是短暂存储或者永久存储。

其中，操作系统221用于管理与控制电子设备上的各硬件设备以及计算机程序222，以实现处理器21对存储器22中海量数据223的运算与处理，其可以是Windows、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备执行的大语言模型任务处理方法的计算机程序之外，还可以进一步包括能够用于完成其他特定工作的计算机程序。数据223除了可以包括电子设备接收到的由外部设备传输进来的数据，也可以包括由自身输入输出接口25采集到的数据等。

进一步的，本申请还公开了一种计算机可读存储介质，用于存储计算机程序；其中，所述计算机程序被处理器执行时实现前述公开的大语言模型任务处理方法。关于该方法的具体步骤可以参考前述实施例中公开的相应内容，在此不再进行赘述。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器（Random Access Memory，即RAM）、内存、只读存储器（Read-Only Memory，即ROM）、电可编程EPROM（Erasable Programmable Read Only Memory）、电可擦除可编程EEPROM（Electrically Erasable Programmable read only memory）、寄存器、硬盘、可移动磁盘、CD-ROM（CoMP23035835act Disc Read-Only Memory，即紧凑型光盘只读储存器）、或技术领域内所公知的任意其它形式的存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本发明所提供的一种大语言模型任务处理方法、装置、设备及介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种大语言模型任务处理方法，其特征在于，包括：

2.根据权利要求1所述的大语言模型任务处理方法，其特征在于，所述基于所述参考提示词，并利用目标策略网络生成与各个所述待处理子任务分别对应的目标提示词之前，还包括：

3.根据权利要求2所述的大语言模型任务处理方法，其特征在于，所述利用策略梯度算法和所述第一训练数据对所述初始策略网络进行迭代训练，得到训练后策略网络，包括：

将所述初始策略网络确定为当前策略网络；

判断所述下一策略网络是否满足预设停止训练条件；

若满足，则将所述下一策略网络确定为训练后策略网络。

4.根据权利要求1所述的大语言模型任务处理方法，其特征在于，所述将当前待处理任务输入至目标共享模型中，以便所述目标共享模型输出与所述当前待处理任务对应的参考提示词，包括：

5.根据权利要求4所述的大语言模型任务处理方法，其特征在于，所述将当前待处理任务输入至目标共享模型中之前，还包括：

6.根据权利要求1至5任一项所述的大语言模型任务处理方法，其特征在于，所述对所述当前待处理任务进行任务分解，以得到若干个待处理子任务，包括：

7.根据权利要求6所述的大语言模型任务处理方法，其特征在于，所述利用K-means聚类算法对所述当前待处理任务进行任务分解，以得到所述当前待处理任务的若干个初始子任务，包括：

构建所述当前待处理任务的相似度矩阵和度矩阵；

8.一种大语言模型任务处理装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

存储器，用于保存计算机程序；

处理器，用于执行所述计算机程序，以实现如权利要求1至7任一项所述的大语言模型任务处理方法的步骤。

10.一种计算机可读存储介质，其特征在于，用于存储计算机程序；其中，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的大语言模型任务处理方法的步骤。