CN116820711B

CN116820711B - 任务驱动的自治代理方法

Info

Publication number: CN116820711B
Application number: CN202310666733.8A
Authority: CN
Inventors: 李洋; 徐喆
Original assignee: Shanghai Youfu Network Technology Co ltd
Current assignee: Shanghai Youfu Network Technology Co ltd
Priority date: 2023-06-07
Filing date: 2023-06-07
Publication date: 2024-05-28
Anticipated expiration: 2043-06-07
Also published as: CN116820711A

Abstract

本发明公开了任务驱动的自治代理方法；包括如下步骤:1、任务解析，将任务描述文本转换为1024维的向量表示；2、任务匹配，在向量数据库中搜索与任务描述文本最相似的已完成任务；3、任务优先级调整，根据已完成任务的相关属性和规则，为任务描述文本所指的任务分配优先级；4、自适应任务执行策略，根据任务描述文本所指任务在执行过程中的实时反馈和状态，调整任务的执行策略；5、利用强化学习优化任务分配策略。本发明构思的核心在于实现一个灵活、智能且自适应的代理框架，该框架能够根据任务执行情况自动生成新任务，并动态调整任务优先级，以实现高效的任务管理和执行，具有更强的自主执行、任务生成和动态优先级调整能力。

Description

任务驱动的自治代理方法

技术领域

本发明涉及人工智能自然语言处理技术领域，特别涉及一种任务驱动的自治代理方法。

背景技术

近年来，人工智能(AI)领域取得了突破性的进展，尤其是在自然语言处理(NLP)方面。这些进展为AI技术在各种实际应用中的普及提供了强大的支持。大型语言模型和矢量搜索引擎是其中两个关键的背景技术。

现有的大型语言模型，如GPT-4，基于深度学习技术，已具备处理自然语言的能力。这些模型通过大规模的预训练和微调，能够理解和生成人类语言，在各种NLP任务中展现出出色的性能。这些任务包括机器翻译、文本摘要、情感分析和问答等。大型语言模型的成功在很大程度上源于其庞大的训练数据和强大的计算能力，使其能够捕捉到语言中的微妙联系和复杂模式。

矢量搜索引擎在NLP任务中也发挥着重要作用。它们通常用于快速检索和相似度匹配。通过将文本转换为高维向量表示，矢量搜索引擎可以利用高效的相似度搜索算法，快速找到与给定查询相关的文本数据。这种方法在信息检索、文本聚类和实体链接等任务中具有显著的优势。矢量搜索引擎的成功依赖于高质量的文本向量表示和优化的搜索算法，以确保在大规模数据集上的高效和准确性。

尽管现有的大型语言模型和矢量搜索引擎在各自领域取得了显著成果，但在任务自主执行和管理方面仍存在一定的局限性。例如，当前的AI系统通常需要人工干预来生成任务、确定任务优先级和管理任务执行过程。此外，现有技术在任务执行过程中的动态调整能力以及在不同应用场景下的适应性也有待提高。

因此，在保持现有技术的专业性和严谨度的基础上，开发一种能够在任务驱动的自治代理系统中充分利用大型语言模型和矢量搜索引擎的技术具有重要意义，这将有助于提高AI系统在任务自主执行和管理方面的能力，为AI技术的普及和应用带来重要的推动作用。

发明内容

有鉴于现有技术的上述缺陷，本发明提供了一种任务驱动的自治代理方法，其技术目的是充分利用大型语言模型和矢量搜索引擎的优势，实现自主执行、任务生成和动态优先级调整等功能。

为实现上述目的，本发明公开了一种任务驱动的自治代理方法，包括如下步骤:

步骤1、任务解析，具体为：将用户输入的任务描述文本转换为一个1024维的向量表示；

步骤2、任务匹配，具体为：在向量数据库中搜索与所述任务描述文本最相似的已完成任务；

步骤3、任务优先级调整，具体为：根据所述已完成任务的相关属性和规则，为所述任务描述文本所指的任务分配优先级；

步骤4、自适应任务执行策略，具体为：根据所述任务描述文本所指任务在执行过程中的实时反馈和状态，调整所述任务的执行策略；

步骤5、利用强化学习优化任务分配策略。

优选的，步骤1包括如下步骤：

步骤1.1、预处理，具体为：将所述任务描述文本切分为多个独立的词汇，然后将每一所述词汇均转换成可识别的标记，再将每一所述标记均转换为对应的整数ID；

步骤1.2、编码，具体为：将完成预处理的所述任务描述文本输入预训练的BERT模型，获得所述BERT模型输出的每个所述词汇所对应的向量表示，输出结果是一个N个词汇×D向量维度的矩阵；

步骤1.3、池化，具体包括平均池化或最大池化；

所述平均池化为计算每个维度上的平均值，即将N×D的所述矩阵沿N维进行平均后，得到一个1xD维度的平均池化向量；

所述最大池化为计算每个维度上的最大值，即将N×D的所述矩阵沿N维进行最大值计算，得到一个1xD维度的最大池化向量；

步骤1.4、降维，具体为：采用降维算法将所述平均池化向量或者所述最大池化向量降维为所述1024维的向量表示。

更优选的，在步骤1.1中，对于中文的所述任务描述文本采用j ieba分词库将所述任务描述文本切分为多个独立的词汇；

采用BERT模型对每一所述词汇转换成的所述标记进行识别，则所述标记为[CLS]或[SEP]；

步骤1.4中，采用主成分分析，即PCA或线性判别分析，即LDA将所述平均池化向量或者所述最大池化向量降维为所述1024维的向量表示。

更优选的，步骤2包括如下步骤：

步骤2.1、构建向量数据库，具体为：使用词嵌入技术，将已完成任务的描述编码为向量；

将每个所述已完成任务的描述均作为所述任务描述文本按照步骤1.1至步骤1.4转换为所述1024维的向量表示；

将所有已完成任务的所述1024维的向量表示存储为所述向量数据库；

步骤2.2、查询向量，具体为：将根据所述任务描述文本转换获得的所述1024维的向量表示作为查询向量，在所述向量数据库中搜索相似的所述已完成任务；

步骤2.3、相似度搜索，具体为，将所述查询向量输入Faiss库中的search方法，设置搜索参数，获得k个返回结果及每个返回结果的相似度分数；

每一所述相似度分数均用于标定为相应的所述返回结果所对应的所述已完成任务与所述任务描述文本之间的相似度；

步骤2.4、设置相似度阈值，对所有所述返回结果所对应的所述已完成任务进行筛选，保留符合所述相似度阈值的所有所述返回结果；

步骤2.5、返回匹配结果，将符合所述相似度阈值的所有所述返回结果所对应的所述已完成任务的所述描述，以及相应的结果和反馈信息返回给用户或代理系统。

更优选的，所述向量数据库为Faiss库的IndexFlatL2对象；

在步骤2.3中，采用余弦相似度进行所述相似度搜索，或使用Faiss库中的IndexIVFFlat或IndexHNSWFlat进行所述相似度搜索。

更优选的，步骤3对所有所述返回结果所对应的所述已完成任务进行处理，包括如下步骤：

步骤3.1、定义优先级规则，具体为根据任务紧急程度、任务重要性和资源可用性对优先级规则进行定义；

其中，所述任务紧急程度是指根据所述任务的截止日期和/或所述任务的类型判断所述任务的紧急程度；

所述任务重要性是指根据所述任务的影响范围和/或影响程度判断任务的重要性；

所述资源可用性是指根据当前可用的资源判断任务的可执行性；

当前可用的资源包括人力和设备；

步骤3.2、提取任务属性，具体为：从所述任务描述文本中提取相关属性；

所述相关属性通过规则匹配和/或命名实体识别提取；

所述规则匹配是指使用正则表达式从所述任务描述文本中提取的关键信息；

所述命名实体识别是指利用预训练的命名实体识别模型从所述任务描述文本中识别出的实体；

步骤3.3计算优先级分数，具体为:采用加权分数法计算每个所述已完成任务的优先级分数，公式如下：

优先级分数＝紧急程度得分*系数1+重要性得分*系数2+资源可用性得分*系数3；

步骤3.4、优先级排序，具体为：根据每一所述已完成任务的所述优先级分数对所有所述已完成任务进行排序，所述优先级分数高的排前面，所述优先级分数低的排后面；

步骤3.5更新任务列表，将完成所述优先级排序的所有所述已完成任务的任务列表更新至任务管理系统。

更优选的，从所述任务描述文本中提取所述相关属性包括截止日期和任务类型；

通过所述命名实体识别获得的所述相关属性包括日期和地点；

更优选的，步骤4包括如下步骤：

步骤4.1、收集任务的执行数据，具体包括任务执行进度、任务执行状态和任务执行反馈；

所述任务执行进度包括完成百分比和剩余工作量；

所述任务执行状态包括进行中、暂停或者完成；

所述任务执行反馈包括：执行者对任务难度的反馈和资源需求的反馈；

步骤4.2、设定所述任务的调整策略规则，具体为：根据所述执行数据设定自适应调整策略规则，具体包括资源重新分配、任务优先级调整和任务分解与合并；

所述资源重新分配是指根据所述任务的执行进度和资源需求，动态调整所述任务的资源分配；

所述任务优先级调整是指根据所述任务的执行状态和反馈信息，重新评估所述任务的优先级；

所述任务分解与合并是指根据所述任务的执行难度和进度，对所述任务进行分解或合并；

步骤4.3、监控任务执行，具体为：实时监控所述任务的执行过程，收集所述任务的执行数据；

步骤4.4、评估执行策略，具体为：根据所述执行数据和所述调整策略规则，评估正在执行的所述任务是否需要调整；

步骤4.5、调整执行策略，具体为，当步骤4.4的结果为所述任务需要调整时，根据所述调整策略规则进行相应调整；

步骤4.6、更新任务管理系统，具体为：将调整后的执行策略更新至任务管理系统。

更优选的，在步骤4.3中，使用事件驱动的方法，将所述任务的状态变化、执行者反馈均作为事件，实时更新所述任务的执行数据；

步骤4.4中，根据所述任务的执行进度和资源需求，判断是否需要重新分配资源；

步骤4.5中，进行相应调整是指：将资源从低优先级的所述任务转移到高优先级的所述任务，或将复杂的所述任务分解为多个简单的所述任务。

更优选的，步骤5具体如下：

采用强化学习算法来学习任务分配策略，具体为：

将任务管理系统视为一个环境，任务执行者视为智能体，任务优先级、资源分配等作为智能体的动作空间；

状态：任务的属性包括紧急程度、重要性和资源需求，以及执行者的状态包括可用时间和技能等；

动作：分配任务给执行者、调整任务优先级、重新分配资源；

奖励：任务完成质量，采用满意度评分，满分为10分，以及完成速度，如提前或延迟完成时间，单位为小时；

强化学习算法：使用Proximal Policy Optimization算法，学习率为1e-4，折扣因子为0.99，回合数为10至6；

任务完成质量评分：满分为10分，以执行者和任务发布者的评分为依据；

任务完成速度奖励：每提前1小时完成任务，奖励+0.5分；每延迟1小时完成任务，奖励-0.5分；

智能体通过与环境的交互，学习如何根据任务属性和执行者状态选择最佳的动作以最大化奖励。

本发明的有益效果：

1、本发明通过结合大型语言模型(GPT-4)和矢量搜索引擎，有效地实现了任务自主执行和管理，提高了系统的工作效率和灵活性。代理能够正确理解任务需求，并根据实际情况生成新任务，以实现连续的任务执行。

2、本发明中任务链框架和任务管理模块的设计使得系统具备强大的任务处理能力，能够自动生成新任务并动态调整任务优先级。代理根据任务的紧急程度、重要性和难度等因素，实时调整任务队列，确保关键任务优先执行。

3、本发明通过引入动态任务优先级调整算法和自适应任务执行策略，提高了系统在不同应用场景下的适应性和执行效果。代理能够根据任务特点、自身能力和环境条件，灵活调整执行方式，以实现最佳的执行效果。

4.本发明集成了安全代理、增量学习等改进措施，提高了系统的安全性和可持续发展能力；安全代理能够有效地防止潜在的安全威胁，增量学习机制则有助于代理在执行任务过程中不断提升自身能力。

5、本发明支持多模态输入输出和个性化定制，使得系统在不同应用场景下具有广泛的适用性和良好的用户体验。代理能够处理文本、图像、音频等多种数据类型，并根据用户需求提供个性化定制服务。

6、本发明与其他AI系统集成，可提供更多功能和智能服务，满足用户在各种场景下的需求。代理能够与现有的AI系统无缝对接，为用户提供更丰富的功能和服务，提高其在实际应用中的价值。

7、本发明充分利用大型语言模型和矢量搜索引擎的优势，实现自主执行、任务生成和动态优先级调整等功能。该方法具有显著的技术优势和广泛的应用潜力，有望为AI系统在任务执行和管理方面的能力提供重要支持，推动AI技术在实际应用中的广泛应用。

8、本发明为提高AI系统在任务执行和管理方面的能力提供重要支持，推动AI技术在实际应用中的广泛应用。

以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明，以充分地了解本发明的目的、特征和效果。

附图说明

图1示出本发明一实施例的流程示意图；

图2示出本发明一实施例的用例图。

具体实施方式

实施例

如图1和图2所示，本发明的任务驱动的自治代理方法一具体实施例，包括如下步骤:

步骤2、任务匹配，具体为：在向量数据库中搜索与任务描述文本最相似的已完成任务；

步骤3、任务优先级调整，具体为：根据已完成任务的相关属性和规则，为任务描述文本所指的任务分配优先级；

步骤4、自适应任务执行策略，具体为：根据任务描述文本所指任务在执行过程中的实时反馈和状态，调整任务的执行策略；

步骤5、利用强化学习优化任务分配策略。

本发明的创新构思主要包括以下关键技术点：

1.利用大型语言模型的语言理解和生成能力，实现任务解析和生成模块。该模块能够根据输入的任务描述，自动生成任务的结构化表示，以便于后续处理和执行。同时，该模块还具备基于已完成任务的结果生成新任务的功能，从而实现任务链的自然延伸。

2.结合矢量数据库的高效相似度搜索功能，实现任务匹配和推荐模块。该模块将任务的结构化表示与数据库中的任务向量进行比较，以找到与当前任务最相关的已完成任务。基于相关任务的结果和反馈，代理可以生成新的子任务，以优化任务执行过程。

3.动态任务优先级调整算法，以实现实时的任务管理和优化。该算法根据任务的紧急程度、重要性和难度等因素，动态调整任务优先级，以确保关键任务优先执行。同时，算法还能够根据任务执行过程中的反馈信息，调整任务链中各子任务的优先级，以提高整体执行效率。

4.自适应的任务执行策略，以应对不同应用场景和任务类型。该策略结合任务的特点、代理的能力和环境条件，动态调整任务执行方式，以实现最佳的执行效果。

在某些实施例中，步骤1包括如下步骤：

步骤1.1、预处理，具体为：将任务描述文本切分为多个独立的词汇，然后将每一词汇均转换成可识别的标记，再将每一标记均转换为对应的整数ID；

步骤1.2、编码，具体为：将完成预处理的任务描述文本输入预训练的BERT模型，获得BERT模型输出的每个词汇所对应的向量表示，输出结果是一个N个词汇×D向量维度的矩阵；

步骤1.3、池化，具体包括平均池化或最大池化；

平均池化为计算每个维度上的平均值，即将N×D的矩阵沿N维进行平均后，得到一个1xD维度的平均池化向量；

最大池化为计算每个维度上的最大值，即将N×D的矩阵沿N维进行最大值计算，得到一个1xD维度的最大池化向量；

步骤1.4、降维，具体为：采用降维算法将平均池化向量或者最大池化向量降维为1024维的向量表示。

在实际应用中，对于用户输入的任务描述文本，首先进行预处理操作，具体包括：分词：将任务描述切分为独立的词汇；然后将每一词汇将标记为模型可识别的标记；最后进行标记映射：将每一标记均转换为对应的整数ID，以便于模型处理。

由于BERT模型输出的是每个词汇的向量表示，为了得到整个任务描述的向量表示，需要对输出结果进行池化操作。池化操作可以是平均池化或最大池化。

在某些情况中，可能需要根据具体场景和需求对技术实现路径进行调整和优化。例如，可以考虑使用其他预训练模型(如RoBERTa、XLNet等)进行编码，或根据特定领域的要求自定义池化策略。

在某些实施例中，在步骤1.1中，对于中文的任务描述文本采用jieba分词库将任务描述文本切分为多个独立的词汇；

采用BERT模型对每一词汇转换成的标记进行识别，则标记为[CLS]或[SEP]。

假设有一个中文任务描述文本：“我喜欢吃苹果。”首先，使用j ieba分词库将其切分为：“我/喜欢/吃/苹果”。接下来，使用BERT模型处理这些词汇时，会添加特殊标记[CLS]和[SEP]。因此，处理后的标记序列将为：[CLS]我喜欢吃苹果[SEP]。

在这个例子中，[CLS]标记用于表示输入序列的开始，而[SEP]标记表示输入序列的结束。这些特殊标记在BERT模型中具有重要作用，有助于模型理解输入序列的结构。

步骤1.4中，采用主成分分析，即PCA或线性判别分析，即LDA将平均池化向量或者最大池化向量降维为1024维的向量表示。

在某些实施例中，步骤2包括如下步骤：

将每个已完成任务的描述均作为任务描述文本按照步骤1.1至步骤1.4转换为1024维的向量表示；

将所有已完成任务的1024维的向量表示存储为向量数据库；

步骤2.2、查询向量，具体为：将根据任务描述文本转换获得的1024维的向量表示作为查询向量，在向量数据库中搜索相似的已完成任务；

步骤2.3、相似度搜索，具体为，将查询向量输入Faiss库中的search方法，设置搜索参数，获得k个返回结果及每个返回结果的相似度分数；

每一相似度分数均用于标定为相应的返回结果所对应的已完成任务与任务描述文本之间的相似度；

步骤2.4、设置相似度阈值，对所有返回结果所对应的已完成任务进行筛选，保留符合相似度阈值的所有返回结果；

步骤2.5、返回匹配结果，将符合相似度阈值的所有返回结果所对应的已完成任务的描述，以及相应的结果和反馈信息返回给用户或代理系统。

在某些实施例中，向量数据库为Faiss库的IndexFlatL2对象；

在步骤2.3中，采用余弦相似度进行相似度搜索，或使用Faiss库中的IndexIVFFlat或IndexHNSWFlat进行相似度搜索。

在某些实施例中，步骤3对所有返回结果所对应的已完成任务进行处理，包括如下步骤：

其中，任务紧急程度是指根据任务的截止日期和/或任务的类型判断任务的紧急程度；

任务重要性是指根据任务的影响范围和/或影响程度判断任务的重要性；

资源可用性是指根据当前可用的资源判断任务的可执行性；

当前可用的资源包括人力和设备；

步骤3.2、提取任务属性，具体为：从任务描述文本中提取相关属性；

相关属性通过规则匹配和/或命名实体识别提取；

规则匹配是指使用正则表达式从任务描述文本中提取的关键信息；

命名实体识别,即Named Entity Recognition，缩写为NER，是指利用预训练的命名实体识别模型，从任务描述文本中识别出的实体，是自然语言处理(NLP)领域的一个任务，旨在从文本中识别出实体，如人名、地名、组织名等。预训练的命名实体识别模型是一个已经在大量标注数据上进行过训练的模型，能够对新的输入文本进行实体识别。这些模型通常基于深度学习架构，如循环神经网络(RNN)、长短时记忆网络(LSTM)或者Transformer等。

步骤3.3计算优先级分数，具体为:采用加权分数法计算每个已完成任务的优先级分数，公式如下：

步骤3.4、优先级排序，具体为：根据每一已完成任务的优先级分数对所有已完成任务进行排序，优先级分数高的排前面，优先级分数低的排后面；

步骤3.5更新任务列表，将完成优先级排序的所有已完成任务的任务列表更新至任务管理系统。

在实际应用中，还可以考虑引入更多的任务属性和规则，以满足特定领域的要求。此外，为了提高任务属性提取的准确性，可以尝试使用更强大的自然语言处理模型，如BERT、RoBERTa等。

在某些实施例中，从任务描述文本中提取相关属性包括截止日期和任务类型；

通过命名实体识别获得的相关属性包括日期和地点；

在某些实施例中，步骤4包括如下步骤：

任务执行进度包括完成百分比和剩余工作量；

任务执行状态包括进行中、暂停或者完成；

任务执行反馈包括：执行者对任务难度的反馈和资源需求的反馈；

步骤4.2、设定任务的调整策略规则，具体为：根据执行数据设定自适应调整策略规则，具体包括资源重新分配、任务优先级调整和任务分解与合并；

资源重新分配是指根据任务的执行进度和资源需求，动态调整任务的资源分配；

任务优先级调整是指根据任务的执行状态和反馈信息，重新评估任务的优先级；

任务分解与合并是指根据任务的执行难度和进度，对任务进行分解或合并；

步骤4.3、监控任务执行，具体为：实时监控任务的执行过程，收集任务的执行数据；

步骤4.4、评估执行策略，具体为：根据执行数据和调整策略规则，评估正在执行的任务是否需要调整；

步骤4.5、调整执行策略，具体为，当步骤4.4的结果为任务需要调整时，根据调整策略规则进行相应调整；

在某些实施例中，在步骤4.3中，使用事件驱动的方法，将任务的状态变化、执行者反馈均作为事件，实时更新任务的执行数据；

步骤4.4中，根据任务的执行进度和资源需求，判断是否需要重新分配资源；

步骤4.5中，进行相应调整是指：将资源从低优先级的任务转移到高优先级的任务，或将复杂的任务分解为多个简单的任务。

在某些实施例中，步骤5具体如下：

采用强化学习算法来学习任务分配策略，具体为：

状态：任务的属性包括紧急程度、重要性和资源需求，以及执行者的状态包括可用时间和技能等。

强化学习算法也可以为Deep Q-Learning。

在实际应用中，可能需要根据具体场景和需求对技术实现路径进行调整和优化。例如，可以考虑引入更多的任务执行数据和规则，以满足特定领域的要求。此外，为了提高任务执行监控的实时性和准确性，可以尝试使用更先进的数据收集和处理技术，如实时数据流处理、分布式事件监控等。

通过以上步骤，本发明可以实现一个技术可行、先进且严谨的任务驱动的自治代理系统。该系统能够自动解析任务、匹配相似任务、调整任务优先级和选择合适的执行策略。需要注意的是，这里提供的技术方法和参数仅作为示例，实际应用中可能需要根据具体场景和需求进行调整和优化。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.任务驱动的自治代理方法；其特征在于，包括如下步骤:

步骤2、任务匹配，具体为：在向量数据库中搜索与所述任务描述文本最相似的已完成任务；所述步骤2包括如下步骤：

步骤2.5、返回匹配结果，将符合所述相似度阈值的所有所述返回结果所对应的所述已完成任务的所述描述，以及相应的结果和反馈信息返回给用户或代理系统；

步骤3对所有所述返回结果所对应的所述已完成任务进行处理，包括如下步骤：

当前可用的资源包括人力和设备；

所述相关属性通过规则匹配和/或命名实体识别提取；

步骤3.5更新任务列表，将完成所述优先级排序的所有所述已完成任务的任务列表更新至任务管理系统；

步骤5、利用强化学习优化任务分配策略。

2.根据权利要求1所述的任务驱动的自治代理方法，其特征在于，步骤1包括如下步骤：

步骤1.3、池化，具体包括平均池化或最大池化；

3.根据权利要求2所述的任务驱动的自治代理方法，其特征在于，在步骤1.1中，对于中文的所述任务描述文本采用jieba分词库将所述任务描述文本切分为多个独立的词汇；

4.根据权利要求3所述的任务驱动的自治代理方法，其特征在于，所述向量数据库为Faiss库的IndexFlatL2对象；

5.根据权利要求1所述的任务驱动的自治代理方法，其特征在于，从所述任务描述文本中提取所述相关属性包括截止日期和任务类型；

通过所述命名实体识别获得的所述相关属性包括日期和地点。

6.根据权利要求1所述的任务驱动的自治代理方法，其特征在于，步骤4包括如下步骤：

所述任务执行进度包括完成百分比和剩余工作量；

所述任务执行状态包括进行中、暂停或者完成；

7.根据权利要求6所述的任务驱动的自治代理方法，其特征在于，在步骤4.3中，使用事件驱动的方法，将所述任务的状态变化、执行者反馈均作为事件，实时更新所述任务的执行数据；

8.根据权利要求7所述的任务驱动的自治代理方法，其特征在于，步骤5具体如下：

采用强化学习算法来学习任务分配策略，具体为：

将任务管理系统视为一个环境，任务执行者视为智能体，任务优先级、资源分配作为智能体的动作空间；

状态：任务的属性包括紧急程度、重要性和资源需求，以及执行者的状态包括可用时间和技能；

奖励：任务完成质量，采用满意度评分，满分为10分，以及完成速度，提前或延迟完成时间，单位为小时；

强化学习算法：使用ProximalPolicy Optimization算法，学习率为1e-4，折扣因子为0.99，回合数为10至6；

智能体通过与环境的交互，学习根据任务属性和执行者状态选择最佳的动作以最大化奖励。