CN117094376B

CN117094376B - 一种任务处理方法、装置、系统、设备及可读存储介质

Info

Publication number: CN117094376B
Application number: CN202311352992.XA
Authority: CN
Inventors: 范宝余; 王晓敏; 赵雅倩; 郭振华; 王丽; 李仁刚
Original assignee: Inspur Electronic Information Industry Co Ltd
Current assignee: Inspur Electronic Information Industry Co Ltd
Priority date: 2023-10-19
Filing date: 2023-10-19
Publication date: 2024-02-23
Anticipated expiration: 2043-10-19
Also published as: CN117094376A

Abstract

本发明在计算机应用技术领域公开了一种任务处理方法、装置、系统、设备及可读存储介质，该方法利用会话基础大模型对输入信息进行处理，得到用户意图；将用户意图输入动作状态管理器进行动作分析，得到处理用户意图的动作序列；从工具库中选出与动作序列匹配的目标工具；调用目标工具，执行动作序列中的动作。本发明的技术效果：提供了实现通用人工智能AGI的一个新范式，让智能体学会使用工具，并基于行为/动作作为驱动，将基础模型与现有工具连接起来，从而执行多样化的任务。进一步，可实现通用人工智能的一致性互联，实现功能池的虚拟可扩展，实现现有工具的高效利用，实现现有数据重复利用，提高效率。

Description

一种任务处理方法、装置、系统、设备及可读存储介质

技术领域

本发明涉及计算机应用技术领域，特别是涉及一种任务处理方法、装置、系统、设备及可读存储介质。

背景技术

人工智能一直被认为只能干一件特定的事情；事实上，通用人工智能（Artificialgeneral intelligence，AGI）的研究一直没有停止；从产业角度看，任务的多样性对于通用人工智能的需求日渐增强。AGI的关键是基础模型，这是人工智能最新发展的关键驱动力。这种新型人工智能系统以行为和任务为中心，学习和理解人类行为模式，自主地执行各种任务。

为了实现不同功能、智力的形式或类型，目前业界各种网络架构层出不穷，而没有统一的范式，无法满足通用人工智能的多任务需求。

综上所述，如何有效地解决通用人工智能等问题，是目前本领域技术人员急需解决的技术问题。

发明内容

本发明的目的是提供一种任务处理方法、装置、系统、设备及可读存储介质，提供了实现通用人工智能AGI的一个新范式，让智能体学会使用工具，并基于行为/动作作为驱动，将基础模型与现有工具连接起来，从而执行多样化的任务。

为解决上述技术问题，本发明提供如下技术方案：

一种任务处理方法，包括：

利用会话基础大模型对输入信息进行处理，得到用户意图；

将所述用户意图输入动作状态管理器进行动作分析，得到处理所述用户意图的动作序列；

从工具库中选出与所述动作序列匹配的目标工具；

调用所述目标工具，执行所述动作序列中的动作。

优选地，所述利用会话基础大模型对输入信息进行处理，得到用户意图，包括：

利用所述会话基础大模型对所述输入信息进行编码处理，得到所述用户意图；

其中，所述用户意图包括任务和与描述所述任务的键值对。

优选地，所述输入信息包括：文本、图像、视频、音频和代码中的至少一种。

优选地，所述将所述用户意图输入动作状态管理器进行动作分析，得到处理所述用户意图的动作序列，包括：

将所述用户意图输入所述动作状态管理器并基于当前状态信息进行动作分析，得到所述动作序列；

其中，所述当前状态信息包括开始时刻至当前时刻的对话历史和用户意图。

优选地，所述将所述用户意图输入所述动作状态管理器并基于当前状态信息进行动作分析，得到所述动作序列，包括：

判断所述当前状态信息是否充分；

如果是，则基于所述当前状态信息进行动作分析，得到所述动作序列；

如果否，则向所述会话基础大模型反馈当前状态信息不全的提示信息。

优选地，所述从工具库中选出与所述动作序列匹配的目标工具，包括：

从工具库中选出与所述动作序列匹配的若干个候选工具；

利用所述会话基础大模型输出所述候选工具的工具信息，并响应于用户应答从所述候选工具中选出目标工具。

优选地，所述从工具库中选出与所述动作序列匹配的若干个候选工具，包括：

从所述工具库中找出可执行所述动作序列中部分动作或全部动作的匹配工具；

从所述匹配工具中选出所述候选工具。

若所述输入信息为文本，则利用llama_2模型、DARWIN或Google PaLM对所述文本进行处理，得到所述用户意图；

若所述输入信息为图像或所述输入信息为文本和图像，则利用Google PaLM对所述文本进行处理，得到所述用户意图。

基于统一的应用程序接口文档协议与所述工具库中的工具进行通信，确定出与所述动作序列匹配的目标工具类别；其中，所述目标工具类别包括页面服务工具、自动化工具、云服务工具、数据工具、云工具、搜索引擎、暂存器、数据库和编译器；

从所述目标工具类别中找出所述目标工具。

优选地，还包括：

收集本次的任务执行数据；所述任务执行数据包括状态信息、动作序列和任务反馈；

基于所述任务执行数据训练评判网络；

结合所述评判网络和所述任务执行数据训练策略网络；

利用训练后的所述策略网络计算所述会话基础大模型和/或所述动作状态管理器的损失值；

利用所述损失值，对所述会话基础大模型和/或所述动作状态管理器进行参数调整；

其中，训练所述策略网络，包括：

获取所述评判网络基于价值函数用深度学习神经网络所表示的策略；

将所述任务执行数据输入至所述策略网络对应的策略梯度中，以更新所述策略网络的网络参数；

其中，所述策略梯度包括同策略和异策略，所述同策略为基于行为策略与目标策略相同模式的策略，所述异策略为基于行为策略与所述目标策略不同模式的策略。

优选地，还包括：

基于本次和历史的任务执行数据对所述会话基础大模型和/或动作状态管理器进行优化训练。

优选地，所述收集本次的任务执行数据，包括：

在生成所述动作序列过程中，收集所述状态信息和所述动作序列；所述状态信息包括开始时刻至当前时刻的对话历史和用户意图；

在完成所述动作序列中的动作之后，获取用户反馈信息，得到关于是否完成意图的任务反馈。

优选地，所述基于本次和历史的任务执行数据对所述会话基础大模型和/或动作状态管理器进行优化训练，包括：

基于所述任务执行数据训练评判网络；

结合所述评判网络和所述任务执行数据训练所述策略网络；

利用所述损失值，对所述会话基础大模型和/或所述动作状态管理器进行参数调整。

优选地，所述结合所述评判网络和所述任务执行数据训练所述策略网络，包括：

优选地，还包括：

基于用户反馈，对外输出所述目标工具所属的工具类别中的工具进行优化的提示。

一种任务处理装置，包括：

意图识别模块，用于利用会话基础大模型对输入信息进行处理，得到用户意图；

动作分析模块，用于将所述用户意图输入动作状态管理器进行动作分析，得到处理所述用户意图的动作序列；

工具选择模块，用于从工具库中选出与所述动作序列匹配的目标工具；

任务执行模块，用于调用所述目标工具，执行所述动作序列中的动作。

一种任务处理系统，包括：

会话基础大模型，用于对输入信息进行处理，得到用户意图；

动作状态管理器，用于对所述用户意图进行动作分析，得到处理所述用户意图的动作序列，并从工具库中选出与所述动作序列匹配的目标工具；

动作执行器，用于调用所述目标工具，执行所述动作序列中的动作；

所述工具库，用于存放工具。

优选地，还包括：

应用程序接口平台，所述应用程序接口平台用于管理所述工具库中的工具，所述应用程序接口平台与所述会话基础大模型基于统一的应用程序接口文档协议进行通信。

优选地，还包括：

反馈席位强化器，用于基于策略、奖励、价值和状态，并结合策略梯度和价值学习对所述会话基础大模型和/或动作状态管理器进行优化训练。

一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现上述任务处理方法的步骤。

一种可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述任务处理方法的步骤。

应用本发明实施例所提供的方法，利用会话基础大模型对输入信息进行处理，得到用户意图；将用户意图输入动作状态管理器进行动作分析，得到处理用户意图的动作序列；从工具库中选出与动作序列匹配的目标工具；调用目标工具，执行动作序列中的动作。

在本发明中，利用会话基础大模型可以与用户进行交互/对话，从而基于输入信息，识别到用户意图。然后，将用户意图输入到动作状态管理器中进行动作分析，可以得到处理该用户意图的动作序列。进而从工具库中选出与该动作序列匹配的目标工具，最终调用该目标工具，可以执行该动作序列中的动作，从而完成任务的识别与处理。

本发明的技术效果：提供了实现通用人工智能AGI的一个新范式，让智能体学会使用工具，并基于行为/动作作为驱动，将基础模型与现有工具连接起来，从而执行多样化的任务。进一步，可实现通用人工智能的一致性互联，实现功能池的虚拟可扩展，实现现有工具的高效利用，实现现有数据重复利用，提高效率。

相应地，本发明实施例还提供了与上述任务处理方法相对应的任务处理装置、系统、设备和可读存储介质，具有上述技术效果，在此不再赘述。

附图说明

为了更清楚地说明本发明实施例或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中一种任务处理方法的实施流程图；

图2为本发明实施例中一种任务处理装置的结构示意图；

图3为本发明实施例中一种任务处理系统的结构示意图；

图4为本发明实施例中一种任务处理方法的实施示意图；

图5为本发明实施例中一种电子设备的结构示意图；

图6为本发明实施例中一种电子设备的具体结构示意图；

图7为本发明实施例中一种工具库结构示意图。

实施方式

本发明的核心提供了一种任务处理方法、装置、系统、设备及可读存储介质，具体的，提出一种实现通用人工智能的新范式（即全新的理论体系），基于行为驱动的人工智能平台，通过相互独立的API代码单元将基础模型与各种现有系统和模型链接起来，从而执行多样化的任务，能够自动分析和规划任务，优化资源分配，提高系统的整体效能。

API（Application Programming Interface，应用程序接口）节点通过会话基础大模型/会话基础大模型组网，设计多样化任务的解决方案框架，实现任务与API快速精准匹配，以提高系统整体效能。为了达到整个模型的优化，通过人类行为反馈的强化学习正反馈给API的开发者，以优化API平台，以最终实现敏捷架构（agile solution）。API平台和CFM（Conversational Foundation Model，会话基础大模型）之间的通信问题，通过设计统一的API文档协议，以实现CFM和API数据协议转换。

也就是说，本发明可以让智能体（如图2所示系统）学会使用工具，学会使用工具是人与动物的主要区别，也是本发明与其他专用人工智能的主要区别；这个新范式是基于行为驱动（Action driven）的人工智能平台，将基础模型与现有工具连接起来，从而执行多样化的任务。

在具体实现通用人工智能的敏捷解决方案中采用三层MVC架构（model/view/controller），将业务逻辑、数据、界面显示分离；提出了统一的API文档协议，包含API的主要信息（接口名称、简要描述、请求的URL（Universal Resource Locator，统一资源定位符）、请求方式GET（获取由请求URL标识的资源）/PUT（存储一个资源到请求的URL）/POST（向Web服务器发送无限制长度的数据）等），解决了API平台和CFM会话基础大模型之间的通信问题。实现任务与API快速精准匹配，高效调用API模块的功能，以提高系统整体效能。

此外，本发明还提出了求异存同的策略网络方法，同策略方法使用当前的最优选择,可能学不到全局最优解；异策略收敛速度慢,但保证产生数据的全面性。因此，本发明提出的求异存同策略，可以保证数据的全面性，同时让收敛速度加快。

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参考图1，图1为本发明实施例中一种任务处理方法的流程图，该方法可以应用于本发明实施例所提供的任务处理系统中，该方法包括以下步骤：

S101、利用会话基础大模型对输入信息进行处理，得到用户意图。

在本发明实施例中，可以利用训练好的会话基础大模型对输入信息进行处理，从而得到用户意图。

其中，输入信息可以为用户可以输入的任何形式且能够被会话基础大模型所能识别理解的信息。

在本发明中的一种具体实施方式中，输入信息包括：文本、图像、视频、音频和代码中的至少一种。也就是说，输入信息可以为文本、图像、视频、音频和代码等。这些输入信息可以围绕一个意图，也可以围绕多个意图。例如，用户可输入一张网站截图图片，以及文本：识别图片内容，打开与图片内容相关的网站。

在本发明中实施例中，用户意图，即用户输入的任务，即用户想要达到的目的。

在本发明中的一种具体实施方式中，利用会话基础大模型对输入信息进行处理，得到用户意图，包括：

若输入信息为文本，则利用llama_2模型、DARWIN或Google PaLM对文本进行处理，得到用户意图；

若输入信息为图像或输入信息为文本和图像，则利用Google PaLM对文本进行处理，得到用户意图。

举例说明：会话基础大模型可以完成以下4个功能：

1、能接受多模式输入和上下文（如文本、图像、视频、音频和代码），并基于API生成可执行代码，以完成特定任务。

2、能从用户指令中提取特定的任务，并提出合理的解决方案大纲，以帮助选择最相关的API（或工具）来生成代码。

3、能从文档中快速学习如何使用API，并根据常识和API使用历史将它们与特定任务相匹配。

4、包含一个明确的代码验证机制，以确认生成代码的可靠性和可信度。

利用会话基础大模型对输入信息进行编码处理，得到用户意图；

其中，用户意图包括任务和与描述任务的键值对。

在本实施例中，会话基础大模型相应于人类的感知传感器（视觉、听觉和触觉、味觉等），用于区分、和识别外部和内部信息。输入信息Xn以文字、图片等方式输入到CFM（例如，现已发布的llama模型）中。

经过会话基础大模型编码以及处理，输出Un = (In,Zn)，其中In（Intent）表示意图（例如：订飞机票，文生图任务、翻译任务、生成一个PowerPoint任务等）。Zn表示键值对，以一系列键值对（key-value）形式存在，Zn=f(Xn)，Zn = {1, 2, 3…}，是序列标注问题，可以使用CRF（Conditional Random Field，条件随机场）、HMM（Hidden Markov Model，隐马尔可夫模型），也可以使用RNN（Recurrent Neural Networks，循环神经网络）、LSTM（shortfor Long Short-term memory，长短期记忆网络）、GRU（Gate Recurrent Unit，门控循环）。

对于不同任务，键值key不同。举例说明，例1：订机票任务的键值有出发地、目的地、时间、飞机航班号、人员信息等；例2：点咖啡任务的键值有咖啡种类、尺寸（超大杯/大杯/中杯）、温度（热/冰）、数量等。

此外，在实际应用中，会话基础大模型也可以替换为其他可以实现将输入信息转换为用户意图的模型。例如，在本发明中的一种具体实施方式中，还可以利用会话基础大模型对输入信息进行处理，得到用户意图。其中，会话基础大模型（Large Language Model，LLM）负责与用户交互、输出最优任务方案、中转站等作用。即，接收输入信息Xn，输出用户意图。

S102、将用户意图输入动作状态管理器进行动作分析，得到处理用户意图的动作序列。

得到用户意图之后，便可将用户意图输入至动作状态管理器中进行动作分析，即可得到处理该用户意图的动作序列。

即，动作状态管理器可基于用户意图，确定出解决或实施该用户意图的动作序列。

在本发明中的一种具体实施方式中，将用户意图输入动作状态管理器进行动作分析，得到处理用户意图的动作序列，包括：

将用户意图输入动作状态管理器并基于当前状态信息进行动作分析，得到动作序列；

其中，当前状态信息包括开始时刻至当前时刻的对话历史和用户意图。

在本发明实施例中，动作状态管理器（例如ASM）对应于人类潜意识工作的缓冲区行为，其包括历史动作信息、随着时间衰减的状态信息。输入为S101步骤输出的Un= (In,Zn)，结合当前状态信息S，输出为动作序列An。AGI代理对当下发生的事情进行理解，行为空间中的信息会在不同的行为认知循环中反复出现，动作存储在动作空间中（例如：询问、确认、查询、编译、结束等）。

在不同时刻的Sn（当前状态信息）是一种包含0时刻到t时刻的对话历史、用户意图和键值对的数据结构；其中，0时刻即指本次任务开始的时刻。S={Un,Hn}，Un同上、Hn是聊天的历史，Hn= {U0,A0,U1,A1,...,Un−1,An−1}，Sn=f(Sn−1,An−1,Un)。An是本轮输出的动作，A ={Ai,Vi}，Ai、Vi是第i轮对话的属性和对应值，可使用任务型训练模块完成。

在本发明中的一种具体实施方式中，将用户意图输入动作状态管理器并基于当前状态信息进行动作分析，得到动作序列，包括：

判断当前状态信息是否充分；

如果是，则基于当前状态信息进行动作分析，得到动作序列；

如果否，则向会话基础大模型反馈当前状态信息不全的提示信息。

在实际应用中，对于不同的任务，有着不同的处理条件，例如，图像识别任务需要输入图像，订单任务需要有订单信息。因而，可针对不同的任务对应的所需信息进行判别，已确定当前状态信息是否充分。

举例说明：对于订机票这一意图，若当前状态信息中未包括出发地和目的地，则表明当前状态信息不充分，此时可以向会话基础大模型反馈当前状态信息不全的提示信息；若当前状态信息中已包括订机票相关的全部必要信息，则表明当前状态信息充分，此时可以直接基于当前状态信息进行动作分析，从而得到动作序列。

S103、从工具库中选出与动作序列匹配的目标工具。

其中，工具库中存放可以被调用的工具以及对应的API，该工具库包括页面服务工具、自动化工具、云服务工具、数据工具、云工具、搜索引擎、暂存器、数据库和编译器（如Python编译器）、商业杠杆等工具。

在本发明实施例中，可基于动作与工具的映射关系，从工具库中选出目标工具。在本发明实施例中，对于所选出的目标工具的数量和种类并不做具体的限定。

在本发明中的一种具体实施方式中，从工具库中选出与动作序列匹配的目标工具，包括：

基于统一的API文档协议与工具库中的工具进行通信，确定出与动作序列匹配的目标工具类别；其中，目标工具类别包括页面服务工具、自动化工具、云服务工具（如AWS（Amazon Web Services，亚马逊云计算服务）云服务等）、数据工具、云工具（即云上工具）、搜索引擎、暂存器、数据库和编译器；

从目标工具类别中找出目标工具。

请参考图7，为便于管理和查找工具，可以将工具库设置为2层结构，即，第一层为工具类别，第二层为每个具体根据类别下的具体工具，其中n1至n9可以相同也可以不同。

其中，页面服务工具类别下即关于页面服务相关的工具，自动化工具类别下即关于自动化处理相关的工具，云服务工具类别下即与云服务相关的工具，数据工具类别下即与数据处理相关的工具，AWS云工具类别下即与AWS云相关的工具，搜索引擎类别下即搜索相关引擎、暂存器类别下即暂存的存储器、数据库类别下即数据库及数据库管理相关工具和编译器类别下即与编译相关的工具。

例如，页面服务工具类别下包括：Tomcat（一种开放源代码的Web应用服务器，别名汤姆猫），Nginx（engine x，高性能的HTTP和反向代理web服务器），Apache（Apache HTTPServer，一种Web应用服务器），Undertow（一种嵌入式Web服务器），IIS（InternetInformation Services，互联网信息服务），Lighttpd（一种开源Web服务器）等等。自动化工具类别下包括：Selenium（一种用于Web应用程序测试的工具），Jmeter（一种对软件做压力测试的工具），Puppet（一种集中配置管理系统），Docker（一种应用容器引擎）等等。云服务工具类别下包括：Amazon EC2（ElasticComputeCloud，亚马逊弹性计算云），MicrosoftAzure（微软基于云计算的操作系统），Google Cloud Platform（谷歌云计算），OpenStack（云计算管理平台）等等。数据工具类别下包括，包括：Excel（电子表格软件），VBA（VisualBasic for Applications，宏语言），SAS（STATISTIC ALANALY SISSYSTEM，统计分析软件），SPSS（Statistical Product and Service Solutions，统计产品与服务解决方案）等等。搜索引擎包括：google（谷歌搜索引擎），baidu（百度搜索引擎），bing（微软必应）等等。数据库包括：Oracle（甲骨文数据管理系统），MySQL（一种关系型数据库管理系统），SQL Server（一种关系型数据库管理系统），DB2（一套关系型数据库管理系统）等等。编译器，包括：gcc（GNUCompiler Collection，编译器套件），llvm（Low Level Virtual Machine，底层虚拟机），clang（一种轻量级编译器），VC++（Microsoft Visual C++，集成开发环境）等等。当然，还可以有其他类工具，或其他形式（如三层分类，不同划分类别等）的分类。

从工具库中选出与动作序列匹配的若干个候选工具；

利用会话基础大模型输出候选工具的工具信息，并响应于用户应答从候选工具中选出目标工具。

其中，从工具库中选出与动作序列匹配的若干个候选工具，包括：

从工具库中找出可执行动作序列中部分动作或全部动作的匹配工具；

从匹配工具中选出候选工具。

为便于描述，下面将上述若干步骤结合起来进行说明。

在本发明中，可以从工具库中选出与动作序列匹配的若干个候选工具，然后反馈选择情况给会话基础大模型。然后，利用会话基础大模型输出这些候选工具的工具信息，由用户进行选择和确定，并响应于用户应答，从候选工具中选出目标工具。

S104、调用目标工具，执行动作序列中的动作。

在本发明实施例中，基于统一的API文档协议与工具库中的工具进行通信。

其中API文档协议包括接口名称、简要描述、请求的URL、请求方式GET/PUT/POST等信息，可解决API平台和会话基础大模型之间的通信问题。API平台可调用工具库中的工具。从而，实现任务与API快速精准匹配，高效调用API模块的功能，以提高系统整体效能。

即，API文档协议，解决了API平台和会话基础大模型之间的通信问题，以实现CFM和API数据协议转换；功能扩展问题，通过API大规模组网，实现功能池统一调配，使每个解决方案计算API动态扩展、按需分配。

S104步骤，即执行从动作管理器中输出的动作，执行结果还可反馈给API开发人员和人类用于任务型训练，来确认生成的代码或结果是否完成了人类指令中指定的任务；对CFM会话基础大模型进行优化，最终得到满足人类偏好的模型。

具体的，本发明中的任务是通过GWT（Google Web Toolkit，一种允许开发人员使用Java编程语言快速构建和维护复杂但性能高的JavaScript前端应用程序的工具集）中的一段代码单元（Codelets）来实现，每个单元都独立运行。

本发明所提供的方法可使用采用了Spring框架中的MVC（model/view/controller）的系统架构来实现，其中model是CFM会话基础大模型，view视图用于用户交互，controller为控制器；MVC有一种用于调用Codelets的service服务层，主要用于调用核心功能模块。

需要说明的是，基于上述实施例，本发明实施例还提供了相应的改进方案。在优选/改进实施例中涉及与上述实施例中相同步骤或相应步骤之间可相互参考，相应的有益效果也可相互参照，在本文的优选/改进实施例中不再一一赘述。

在本发明中的一种具体实施方式中，请参考图4，还可以在使用过程中，不断优化会话基础大模型和动作状态管理器中的至少一个，具体实现过程包括：

收集本次的任务执行数据；任务执行数据包括状态信息、动作序列和任务反馈；

基于本次和历史的任务执行数据对会话基础大模型和/或动作状态管理器进行优化训练。

即，进行优化训练，可以单独对会话基础大模型进行优化，也可以单独对动作状态管理进行优化，还可以对会话基础大模型和动作状态管理器同时进行优化。

其中，收集本次的任务执行数据，包括：

在生成动作序列过程中，收集状态信息和动作序列；状态信息包括开始时刻至当前时刻的对话历史和用户意图；

在完成动作序列中的动作之后，获取用户反馈信息，得到关于是否完成意图的任务反馈。

也就是说，在执行当前任务时，即在生成动作序列的过程中，将状态信息和动作序列进行收集。然后，在完整了动作序列中的动作之后，便可基于用户反馈，确定是否完成意图。

其中，基于本次和历史的任务执行数据对会话基础大模型和/或动作状态管理器进行优化训练，包括：

基于任务执行数据训练评判网络；

结合评判网络和任务执行数据训练策略网络；

利用训练后的策略网络计算会话基础大模型和/或动作状态管理器的损失值；

利用损失值，对会话基础大模型和/或动作状态管理器进行参数调整。

也就是说，在优化会话基础大模型和/或动作状态管理器时，首先需要基于任务执行数据训练出评判网络（也可称之为评价网络），然后结合该评判网络和任务执行数据训练策略网络。在策略网络训练好之后，便可利用训练后的策略网络计算会话基础大模型和/或动作状态管理器的损失值，从而基于该损失值，对会话基础大模型和/或动作状态管理器的参数进行调整。

在本发明中的一种具体实施方式中，结合评判网络和任务执行数据训练策略网络，包括：

获取评判网络基于价值函数用深度学习神经网络所表示的策略；

将任务执行数据输入至策略网络对应的策略梯度中，以更新策略网络的网络参数；

其中，策略梯度包括同策略和异策略，同策略为基于行为策略与目标策略相同模式的策略，异策略为基于行为策略与目标策略不同模式的策略。

为便于描述，下面将上述两个步骤结合起来进行说明。

优化训练/学习过程识别新的对象、分类和关系，本发明实施例中提出了人类反馈席位强化模型来实现；强化学习包括四个要素：策略p，奖励r，价值v以及状态s（或模型（model））。

模型优化主要有基于策略（策略梯度）或者基于价值（Q学习）这两种方式。在本发明实施例中将策略方法和价值方法相结合，且将动作价值评估和策略更新过程分开，策略网络π以当前的状态作为输入，输出为动作的概率分布或者连续动作值，对当前环境进行充分探索并缓慢进行策略更新；再由评判网络v来评价该动作的好坏从而调整策略，在多个动作认知循环中被多次有意识地优化。

实现步骤如下：

第一部分是奖励模型，人类反馈主要就体现在这个地方，作为动作选择决策；

第二部分采用求异存同策略优化算法，基于奖励模型的反馈来优化模型，最终得到满足人类偏好的语言模型。

本发明采用同策略（on-policy）和异策略（off-policy）相结合，因此命名为求异存同策略。其中同策略方法的行为策略与目标策略相同，倾向于使用当前的最优选择，但可能学不到最优的解，易收敛到局部最优，但是加入探索又会导致降低学习效率，难以找到最优策略。异策略则会产生大量的探索的结果来提供选择，但是收敛速度会很慢，优势是更加强大与通用，能保证产生数据的全面性。

关于策略-评价网络的概念，其中，Q学习是一种价值迭代法，而策略梯度是一种策略迭代法，策略-评价网络同时使用了这两种方法。策略网络直接负责输出每个动作/>的概率，即有多少个动作/>就有多少个输出。评价网络输出的是动作/>价值Q；这是两个神经网络。在策略梯度中，每次训练的累计奖励就像是一个评论家，决定了策略网络的学习方向，使得策略网络倾向于学习评价网络累计奖励更高的逻辑。因此策略梯度可写作：

（公式1）。

为了防止收敛太慢，本发明引入了重要性截断，重要性采样系数可能很大，导致方差大、训练不稳定，为此将/>进行截断，把大于c的部分提出来，得到两项，后一项巧妙的将动作分布修改为当前策略的分布，为后一项系数带来分母；并通过近似策略梯度/>分解引入校正，/>表示t时刻的策略梯度，如公式2所示，用于更新策略网络参数，包括同策略和异策略两部分策略网络：

（公式2）。

本发明中采用策略-评价网络对()，其中/>即策略网络，评价网络基于价值v函数，用深度学习神经网络来表示策略/>是神经网络的权值。根据策略/>选择动作/>服从/>分布，/>分布，并观察到环境产生的奖赏信号/>表示重要性权重，/> 表示对/>函数求/>的梯度，/>表示在状态s下执行动作a的价值，算法的目标是最大化Q值，通过在状态s下所有可能的动作中选择最好的动作来达到最大化期望奖励/>。

新的优化目标有以下特点：

1、前一项系数有最大值c，后一项系数最大值趋于1，这样两项产生的方差都可控，且优化目标无偏。

2、前一项使用历史数据计算，后一项需要根据当前策略采样计算。

优化训练的核心即任务型训练的循环执行，即不停与用户交互，动作的认知循环从用户任务开始，通常以动作结束。其实质上是一个活跃的过程，允许不同模型结构之间的相互作用，且是在连续不断的进行。算法流程（人类反馈席位强化算法流程）实现如下：

准备：评判网络的学习率和策略网络的学习率/>。

随机初始化评判网络参数和策略网络参数/>。

重复以下操作至最大次数：

智能体与环境（即执行上述步骤S101-S104）交互n步并收集由状态s、动作a、奖励r构成的序列。

计算评判网络的损失值：=/>。

计算策略网络的损失值：=/>。

更新评判网络参数：。

更新策略网络参数：。

结束。

如此，便可使用训练后的策略网络对会话基础大模型和动作状态管理器进行调优处理。

在本发明中的一种具体实施方式中，收集本次的任务执行数据；任务执行数据包括状态信息、动作序列和任务反馈；

基于任务执行数据训练评判网络；

结合评判网络和任务执行数据训练策略网络；

利用损失值，对会话基础大模型和/或动作状态管理器进行参数调整；

其中，训练策略网络，包括：

上述步骤与上文实施例所描述的步骤相似和近似的，因而，此实施例中的步骤可以参照上文描述，在此不再一一赘述。

在本发明中的一种具体实施方式中，还可以基于用户反馈，对外输出目标工具所属的工具类别中的工具进行优化的提示。其中，用户反馈可以为当前处理结果不满意，或结果不对（例如用户想要定机票，但结果是定了高铁票）。例如，作为整个模型的优化，结果反馈给正反馈给API的开发者，以达到优化API平台的目的，以最终实现敏捷架构。

相应于上面的方法实施例，本发明实施例还提供了一种任务处理装置，下文描述的任务处理装置与上文描述的任务处理方法可相互对应参照。

参见图2所示，该装置包括以下模块：

意图识别模块101，用于利用会话基础大模型对输入信息进行处理，得到用户意图；

动作分析模块102，用于将用户意图输入动作状态管理器进行动作分析，得到处理用户意图的动作序列；

工具选择模块103，用于从工具库中选出与动作序列匹配的目标工具；

任务执行模块104，用于调用目标工具，执行动作序列中的动作。

应用本发明实施例所提供的装置，利用会话基础大模型对输入信息进行处理，得到用户意图；将用户意图输入动作状态管理器进行动作分析，得到处理用户意图的动作序列；从工具库中选出与动作序列匹配的目标工具；调用目标工具，执行动作序列中的动作。

在本发明的一种具体实施方式中，意图识别模块，用于利用会话基础大模型对输入信息进行编码处理，得到用户意图；

其中，用户意图包括任务和与描述任务的键值对。

在本发明的一种具体实施方式中，输入信息包括：文本、图像、视频、音频和代码中的至少一种。

在本发明的一种具体实施方式中，动作分析模块，具体用于将用户意图输入动作状态管理器并基于当前状态信息进行动作分析，得到动作序列；

在本发明的一种具体实施方式中，动作分析模块，具体用于判断当前状态信息是否充分；

在本发明的一种具体实施方式中，工具选择模块，具体用于从工具库中选出与动作序列匹配的若干个候选工具；

在本发明的一种具体实施方式中，工具选择模块，具体用于从工具库中找出可执行动作序列中部分动作或全部动作的匹配工具；

从匹配工具中选出候选工具。

在本发明的一种具体实施方式中，意图识别模块，具体用于若输入信息为文本，则利用llama_2模型、DARWIN或Google PaLM对文本进行处理，得到用户意图；

若输入信息为图像或所述输入信息为文本和图像，则利用Google PaLM对文本进行处理，得到用户意图。

在本发明的一种具体实施方式中，工具选择模块，具体用于基于统一的API文档协议与工具库中的工具进行通信，确定出与动作序列匹配的目标工具类别；其中，目标工具类别包括页面服务工具、自动化工具、云服务工具、数据工具、云工具、搜索引擎、暂存器、数据库和编译器；

从目标工具类别中找出目标工具。

在本发明的一种具体实施方式中，还包括：

训练模块，用于收集本次的任务执行数据；任务执行数据包括状态信息、动作序列和任务反馈；

基于任务执行数据训练评判网络；

结合评判网络和任务执行数据训练策略网络；

其中，训练策略网络，包括：

在本发明的一种具体实施方式中，还包括：

反馈优化模块，用于收集本次的任务执行数据；任务执行数据包括状态信息、动作序列和任务反馈；

在本发明的一种具体实施方式中，反馈优化模块，具体用于在生成动作序列过程中，收集状态信息和动作序列；状态信息包括开始时刻至当前时刻的对话历史和用户意图；

在本发明的一种具体实施方式中，反馈优化模块，具体用于基于任务执行数据训练评判网络；

结合评判网络和任务执行数据训练策略网络；

在本发明的一种具体实施方式中，反馈优化模块，具体用于获取评判网络基于价值函数用深度学习神经网络所表示的策略；

在本发明的一种具体实施方式中，反馈优化模块，还用于基于用户反馈，对外输出目标工具所属的工具类别中的工具进行优化的提示。

相应于上面的方法实施例，本发明实施例还提供了一种任务处理系统，下文描述的任务处理系统与上文描述的任务处理方法可相互对应参照。

参见图3所示，该系统包括：

会话基础大模型100，用于对输入信息进行处理，得到用户意图；

动作状态管理器200，用于对用户意图进行动作分析，得到处理用户意图的动作序列，并从工具库中选出与动作序列匹配的目标工具；

动作执行器300，用于调用目标工具，执行动作序列中的动作；

工具库400，用于存放工具。

可见，本发明的系统主要包括CFM会话基础大模型、动作状态管理器、工具库、结果反馈四大部分。基于行为驱动的人工智能架构，将基础模型与现有工具连接起来，从而执行多样化的任务；通过此敏捷的解决方案框架，实现任务与API快速精准匹配，以提高系统整体效能，实现通用人工智能，如图1所示；简单流程如下，具体器件/模块见下文：

会话基础大模型是本系统的核心，负责与用户交互、输出最优任务方案、中转站等作用，接收用户输入Xn，输出用户意图；输入到动作状态管理器，经过动作执行器，得到结果。

其中Un作为动作状态管理器的输入，通过任务型训练，输出动作序列An。

将动作序列输入到工具库中，选择合适的工具；返回给会话基础大模型，与用户再次交互，确认方案（即确定选用哪些工具）后，传送给动作执行器，输出结果。

将结果反馈给工具开发人员及用户，确认生成的代码或结果是否完成了指令中指定的任务；再次使用任务型训练，对CFM会话基础大模型进行优化，最终得到满足人类偏好的会话基础大模型和动作状态管理器。

应用本发明实施例所提供的系统，利用会话基础大模型对输入信息进行处理，得到用户意图；将用户意图输入动作状态管理器进行动作分析，得到处理用户意图的动作序列；从工具库中选出与动作序列匹配的目标工具；调用目标工具，执行动作序列中的动作。

在本发明中的一种具体实施方式中，还包括：

API平台，API平台用于管理工具库中的工具，API平台与会话基础大模型基于统一的API文档协议进行通信。

在本发明中的一种具体实施方式中，还包括：

反馈席位强化器，用于基于策略、奖励、价值和状态，并结合策略梯度和价值学习对会话基础大模型和/或动作状态管理器进行优化训练。

相应于上面的方法实施例，本发明实施例还提供了一种电子设备，下文描述的一种电子设备与上文描述的一种任务处理方法可相互对应参照。

参见图5所示，该电子设备包括：

存储器332，用于存储计算机程序；

处理器322，用于执行计算机程序时实现上述方法实施例的任务处理方法的步骤。

具体的，请参考图6，图6为本实施例提供的一种电子设备的具体结构示意图，该电子设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器（central processing units，CPU）322（例如，一个或一个以上处理器）和存储器332，存储器332存储有一个或一个以上的计算机程序342或数据344。其中，存储器332可以是短暂存储或持久存储。存储在存储器332的程序可以包括一个或一个以上模块（图示没标出），每个模块可以包括对数据处理设备中的一系列指令操作。更进一步地，处理器322可以设置为与存储器332通信，在电子设备301上执行存储器332中的一系列指令操作。

电子设备301还可以包括一个或一个以上电源326，一个或一个以上有线或无线网络接口350，一个或一个以上输入输出接口358，和/或，一个或一个以上操作系统341。

上文所描述的任务处理方法中的步骤可以由电子设备的结构实现。

相应于上面的方法实施例，本发明实施例还提供了一种可读存储介质，下文描述的一种可读存储介质与上文描述的一种任务处理方法可相互对应参照。

一种可读存储介质，可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述方法实施例的任务处理方法的步骤。

该可读存储介质具体可以为U盘、移动硬盘、只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可存储程序代码的可读存储介质。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本领域技术人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件的方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应该认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系属于仅仅用来将一个实体或者操作与另一个实体或者操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语包括、包含或者其他任何变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本发明的限制。

Claims

1.一种任务处理方法，其特征在于，包括：

利用会话基础大模型对输入信息进行处理，得到用户意图；

从工具库中选出与所述动作序列匹配的目标工具；

调用所述目标工具，执行所述动作序列中的动作；

基于所述任务执行数据训练评判网络；

结合所述评判网络和所述任务执行数据训练策略网络；

其中，训练所述策略网络，包括：

其中，所述策略梯度包括同策略和异策略，所述同策略为基于行为策略与目标策略相同模式的策略，所述异策略为基于行为策略与所述目标策略不同模式的策略；

所述策略梯度中包括重要性截断；

重要性采样系数，/>表示t时刻的策略梯度，利用

：

更新策略网络参数；

其中，为策略网络，评价网络基于价值v函数，用深度学习神经网络来表示策略为神经网络的权值；根据策略/>选择动作/>服从/>分布，/>服从/>分布，奖赏信号/>表示重要性权重，/>表示对/>函数求/>的梯度，/>表示在状态s下执行动作a的价值，状态s，期望奖励/>。

2.根据权利要求1所述的方法，其特征在于，所述利用会话基础大模型对输入信息进行处理，得到用户意图，包括：

其中，所述用户意图包括任务和与描述所述任务的键值对。

3.根据权利要求2所述的方法，其特征在于，所述输入信息包括：文本、图像、视频、音频和代码中的至少一种。

4.根据权利要求1所述的方法，其特征在于，所述将所述用户意图输入动作状态管理器进行动作分析，得到处理所述用户意图的动作序列，包括：

5.根据权利要求4所述的方法，其特征在于，所述将所述用户意图输入所述动作状态管理器并基于当前状态信息进行动作分析，得到所述动作序列，包括：

判断所述当前状态信息是否充分；

6.根据权利要求1所述的方法，其特征在于，所述从工具库中选出与所述动作序列匹配的目标工具，包括：

从工具库中选出与所述动作序列匹配的若干个候选工具；

7.根据权利要求6所述的方法，其特征在于，所述从工具库中选出与所述动作序列匹配的若干个候选工具，包括：

从所述匹配工具中选出所述候选工具。

8.根据权利要求1所述的方法，其特征在于，所述利用会话基础大模型对输入信息进行处理，得到用户意图，包括：

9.根据权利要求1所述的方法，其特征在于，所述从工具库中选出与所述动作序列匹配的目标工具，包括：

从所述目标工具类别中找出所述目标工具。

10.根据权利要求1至9任一项所述的方法，其特征在于，还包括：

11.根据权利要求10所述的方法，其特征在于，所述收集本次的任务执行数据，包括：

12.根据权利要求10所述的方法，其特征在于，所述基于本次和历史的任务执行数据对所述会话基础大模型和/或动作状态管理器进行优化训练，包括：

基于所述任务执行数据训练评判网络；

结合所述评判网络和所述任务执行数据训练策略网络；

13.根据权利要求12所述的方法，其特征在于，所述结合所述评判网络和所述任务执行数据训练所述策略网络，包括：

14.根据权利要求10所述的方法，其特征在于，还包括：

15.一种任务处理装置，其特征在于，包括：

任务执行模块，用于调用所述目标工具，执行所述动作序列中的动作；

训练模块，用于收集本次的任务执行数据；所述任务执行数据包括状态信息、动作序列和任务反馈；基于所述任务执行数据训练评判网络；结合所述评判网络和所述任务执行数据训练策略网络；利用训练后的所述策略网络计算所述会话基础大模型和/或所述动作状态管理器的损失值；利用所述损失值，对所述会话基础大模型和/或所述动作状态管理器进行参数调整；

其中，训练所述策略网络，包括：

所述策略梯度中包括重要性截断；

重要性采样系数，/>表示t时刻的策略梯度，利用

：

更新策略网络参数；

16.一种任务处理系统，其特征在于，包括：

所述工具库，用于存放工具；

反馈席位强化器，用于基于策略、奖励、价值和状态，并结合策略梯度和价值学习对所述会话基础大模型和/或动作状态管理器进行优化训练；

训练过程包括：

基于所述任务执行数据训练评判网络；

结合所述评判网络和所述任务执行数据训练策略网络；

其中，训练所述策略网络，包括：

所述策略梯度中包括重要性截断；

重要性采样系数，/>表示t时刻的策略梯度，利用

：

更新策略网络参数；

17.根据权利要求16所述的系统，其特征在于，还包括：

18.一种电子设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至14任一项所述任务处理方法的步骤。

19.一种可读存储介质，其特征在于，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至14任一项所述任务处理方法的步骤。