CN117742792A

CN117742792A - 基于大模型的指令执行设备选取方法、装置、设备和介质

Info

Publication number: CN117742792A
Application number: CN202410185838.6A
Authority: CN
Inventors: 邓邱伟; 赵培; 田云龙; 杨令铎; 姚一格
Original assignee: Qingdao Haier Technology Co Ltd; Qingdao Haier Intelligent Home Appliance Technology Co Ltd; Haier Uplus Intelligent Technology Beijing Co Ltd
Current assignee: Qingdao Haier Technology Co Ltd; Qingdao Haier Intelligent Home Appliance Technology Co Ltd; Haier Uplus Intelligent Technology Beijing Co Ltd
Priority date: 2024-02-20
Filing date: 2024-02-20
Publication date: 2024-03-22
Anticipated expiration: 2044-02-20
Also published as: CN117742792B

Abstract

本申请公开了一种基于大模型的指令执行设备选取方法、装置、设备和介质，涉及人工智能技术领域，该基于大模型的指令执行设备选取方法包括：响应于用户终端发送的语音交互信息，根据组件流设备选取事件记录，生成提示学习示例；根据提示学习示例、当前已知条件信息和预设任务描述，生成提示信息，获取混合专家网络模型根据提示信息输出的设备选取结果；混合专家网络模型是根据模型损失函数训练得到的，模型损失函数基于多个子网络模型的负载容量均衡程度，多个子网络模型输出的处理结果的权重分配平衡程度和混合专家网络模型的预测结果准确程度确定；基于混合专家网络模型的联合决策优势和学习能力，确保设备选择功能在复杂应用场景下的准确度。

Description

基于大模型的指令执行设备选取方法、装置、设备和介质

技术领域

本申请涉及人工智能技术领域，具体而言，涉及一种基于大模型的指令执行设备选取方法、装置、设备和介质。

背景技术

随着生产技术水平的不断提高和用户需求的不断增长，越来越多的智能设备被应用在家居场景中。当用户通过语音控制家庭中的智能设备时，通常需要执行预设的设备选择代码确定用户想要控制的目标设备，以控制目标设备执行用户指示的操作。

智能家居场景中的设备选择逻辑通常非常复杂，需要综合考虑“用户发话的位置、发话位置所包含的设备、各设备所支持的功能、交互的对话上下文”等要素。在进行设备选择模型开发时，由于考虑要素繁多，随着不同应用场景的实际需求日益丰富，模型的复杂度和规模也不断增加。

然而，复杂的设备选择模型，不但训练周期较长、训练所需的运算资源较大；且模型的健壮性和泛化性往往较差，在面对复杂多变的应用场景时，无法保证设备选择的准确度。

发明内容

本申请提出了一种基于大模型的指令执行设备选取方法、装置、设备和介质，以提高设备选取模型的收敛和推理速度，实现对指令执行设备的准确选取。

第一方面，本申请提供一种基于大模型的指令执行设备选取方法，包括：

响应于用户终端发送的语音交互信息，获取所述用户终端关联的组件流设备选取事件记录，并根据所述组件流设备选取事件记录，生成提示学习示例；

获取所述用户终端关联的多个候选设备的设备信息，根据所述用户终端、所述语音交互信息和所述设备信息，获取当前已知条件信息；

根据所述提示学习示例、所述当前已知条件信息和预设任务描述，生成提示信息，并将所述提示信息输入预训练的混合专家网络模型，并获取所述混合专家网络模型根据所述提示信息输出的设备选取结果；其中，所述混合专家网络模型包括门控网络层、专家网络层和输出解码层，所述专家网络层包括多个子网络模型，每一所述子网络模型为一种生成式预训练GPT模型；所述混合专家网络模型是根据模型损失函数L训练得到的，模型损失函数L基于所述多个子网络模型的负载容量均衡程度，所述多个子网络模型输出的处理结果的权重分配平衡程度，以及所述混合专家网络模型的预测结果准确程度确定；

控制所述设备选取结果指示的目标设备执行所述语音交互信息指示的操作。可选的，所述混合专家网络模型是根据模型损失函数L训练得到的；其中，所述模型损失函数L的表达式为：；

其中，为基于极大似然估计的损失函数；/>为负载均衡损失函数；/>为贡献均衡损失函数；所述基于极大似然估计的损失函数用于约束所述混合专家网络模型的预测结果准确程度；所述负载均衡损失函数用于约束所述多个子网络模型的负载容量均衡程度，所述贡献均衡损失函数用于约束所述多个子网络模型输出的处理结果的权重分配平衡程度；和/>为通过随机搜索或贝叶斯优化获得的超参数，用于调整负载均衡损失和贡献均衡损失相对于/>的重要程度；在所述模型损失函数L的值小于预设值或满足预设训练次数时，得到训练完成的混合专家网络模型。

可选的，所述多个子网络模型的负载容量均衡程度是根据负载均衡损失函数确定的，所述负载均衡损失函数/>，表达式为：

；

其中，为预设的超参数；

为向所述混合专家网络中输入训练样本后，所述训练样本包括/>个词元，B为正整数且B大于1，所述训练样本中的每个词元被输入至索引为e的子网络模型/>的概率的平均值；

为向所述混合专家网络中输入训练样本后，所述训练样本中的每个词元被输入至索引为e的子网络模型/>的概率大于所述词元被输入至其余子网络模型的概率这一事件的概率；

为基于/>概率分布的信息熵函数；

为基于/>概率分布的信息熵函数。

可选的，所述的表达式为：/>；所述/>的表达式为：；

其中，N为所述混合专家网络中的子网络模型的总数且N为正整数。

可选的，所述的表达式为：/>；其中，为示性函数，/>为词元/>被输入至各子网络模型的概率，；

所述表达式为：/>；

可选的，所述多个子网络模型输出的处理结果的权重分配平衡程度是根据贡献均衡损失函数确定的，所述混合专家网络模型的贡献均衡损失函数/>，表达式为：；

其中，向量为词元/>经过门控网络最后一个隐层输出的未归一化的分数值向量，所述向量/>的每一维的向量值为每个所述子网络模型对应的分数值；

为变异系数函数，用于衡量所述向量/>的每一维的向量值大小的分布离散程度，所述/>的表达式为：/>；

其中，为所述向量/>的每一维的向量值大小的标准差，/>为所述向量/>的每一维的向量值大小的期望值。

可选的，所述根据所述提示学习示例、所述当前已知条件信息和预设任务描述，生成提示信息，并将所述提示信息输入预训练的混合专家网络模型之后，所述方法包括：

控制所述混合专家网络模型中的所述门控网络层根据词元路由规则，将所述提示信息的不同的词元输入对应的目标子网络模型，并确定所述多个子网络模型的输出权重；

控制所述混合专家网络模型中的专家网络层所包含的每一所述子网络模型根据所述门控网络层输入的不同的词元，输出对所述不同的词元的处理结果；

控制所述混合专家网络模型中的所述输出解码层根据所述多个子网络模型的输出权重和所述多个子网络模型对所述不同的词元的处理结果，获取设备选取结果并输出所述设备选取结果。

可选的，所述控制所述混合专家网络模型中的所述门控网络层根据词元路由规则，将所述提示信息的不同的词元输入对应的目标子网络模型，并确定所述目标子网络模型的输出权重，包括：

控制所述门控网络层获取所述提示信息的不同的词元，将所述不同的词元输入权重分配模型；

控制所述门控网络层根据所述权重分配模型的输出结果，获取每个所述词元对应的权重集合，所述词元与所述权重集合是一一对应的，所述词元对应的权重集合包括每个所述子网络模型对所述词元的贡献权重；

控制所述门控网络层根据每个所述词元对应的权重集合中的每个贡献权重和所述词元路由规则指示的筛选条件，确定所述每个词元对应的目标子网络模型，并将所述每个词元输入所述词元对应的目标子网络模型；

控制所述门控网络层根据每个所述目标子网络模型对每个所述词元的贡献权重，获取所述目标子网络模型对每个所述词元的输出权重。

可选的，所述控制所述混合专家网络模型中的所述输出解码层根据所述多个子网络模型的输出权重和所述多个子网络模型对所述不同的词元的处理结果，获取设备选取结果并输出所述设备选取结果，包括：

控制所述输出解码层获取不同的目标子网络模型对每个所述词元的处理结果；

控制所述输出解码层根据所述不同的目标子网络模型对每个所述词元的处理结果和所述不同的目标子网络模型对每个所述词元的贡献权重，对不同的目标子网络模型对同一个词元的处理结果进行加权求和处理，并获取所述专家网络层对每个所述词元的联合处理结果；

控制所述输出解码层根据所述专家网络层对每个所述词元的联合处理结果，获取所述提示信息对应的聚合处理结果；

控制所述输出解码层对所述聚合输出结果进行解码处理，获取所述混合专家网络模型的设备选取结果并输出。

可选的，所述用户终端关联的组件流设备选取事件记录包括预先存储的多个设备选取事件，所述设备选取事件包括历史语音交互信息、所述历史语音交互信息对应的入口终端、所述历史语音交互信息对应的目标智能设备和历史设备信息列表；

所述获取所述用户终端关联的组件流设备选取事件记录之前，所述方法还包括：

在每次获取到入口终端发送的语音交互信息时，对所述语音交互信息进行要素提取，得到至少一个目标要素，其中，所述目标要素是用于进行设备选取的语句要素；

根据所述至少一个目标要素的要素类型，确定与所述语音交互信息匹配的目标组件流程，其中，所述目标组件流程包含与每个目标要素的要素类型匹配的组件，与所述每个目标要素的要素类型匹配的组件用于按照所述每个目标要素对所述入口终端关联的多个智能设备执行设备选取操作，所述目标要素的要素类型为一种预设要素类型，所述预设要素类型包括以下至少之一：设备类型，设备标识，设备位置；

获取所述入口终端关联的多个智能设备的设备信息，并依次调用所述目标组件流程中的各个组件根据所述设备信息对所述多个智能设备执行设备选取操作，得到目标智能设备；

根据所述设备信息列表、所述入口终端、所述语音交互信息和所述目标智能设备，生成设备选取事件，并存储至所述组件流设备选取事件记录。

可选的，所述获取所述用户终端关联的多个候选设备的设备信息，根据所述用户终端、所述语音交互信息和所述设备信息，获取当前已知条件信息，包括：

获取预设的当前已知信息描述，其中，所述当前已知条件信息描述包括：多个待确定条件入参和所述多个待确定条件入参的预设描述，所述多个待确定条件入参包括当前用户终端入参、当前设备信息入参和当前语音交互信息入参；

根据所述用户终端、所述设备信息、所述语音交互信息，分别确定所述多个待确定条件入参的参数值；

根据所述多个待确定入参的参数值和所述多个待确定状态入参的预设描述，获取当前已知条件信息。

可选的，所述提示学习示例包括：已知条件信息示例和所述已知条件信息示例对应的设备选取结果；所述根据组件流设备选取事件记录，生成提示学习示例，包括：

获取所述组件流设备选取事件记录中的多个目标设备选取事件；

根据每个所述目标设备选取事件的历史语音交互信息、所述历史语音交互信息对应的入口终端和历史设备信息列表，获取每个所述提示学习示例的已知条件信息示例；

根据每个所述目标设备选取事件的历史目标设备，获取每个所述提示学习示例的设备选取结果，其中，每个所述目标设备选取事件与每个所述提示学习示例是一一对应的；

根据每个所述提示学习示例的已知条件信息示例、设备选取结果和预设的学习示例描述模版，生成多个所述提示学习示例。

可选的，所述预设任务描述包括背景描述和请求描述，用于指示所述混合专家网络模型学习所述提示学习示例，以使所述混合专家网络模型根据当前已知条件信息，确定所述多个候选智能设备的设备信息中的任一设备信息作为设备选取结果并输出；所述根据所述提示学习示例、所述当前已知条件信息和预设任务描述，生成提示信息，包括：

根据所述提示学习示例、所述当前已知条件信息和预设任务描述，生成多个字符串，其中，所述多个字符串包括提示学习示例字符串、已知条件信息字符串和预设任务描述字符串；

获取预设的提示信息文本模版；

按照预设的字符串匹配规则，确定每个所述字符串在所述提示信息文本模版中的目标槽位；

根据所述提示信息文本模版、每个所述字符串和所述字符串对应的目标槽位，生成提示信息。

第二方面，本申请提供一种指令执行设备选取装置，包括：

获取模块，用于响应于用户终端发送的语音交互信息，获取所述用户终端关联的组件流设备选取事件记录，并根据所述组件流设备选取事件记录，生成提示学习示例；获取所述用户终端关联的多个候选设备的设备信息，根据所述用户终端、所述语音交互信息和所述设备信息，获取当前已知条件信息；

生成模块，用于根据所述提示学习示例、所述当前已知条件信息和预设任务描述，生成提示信息，并将所述提示信息输入预训练的混合专家网络模型，并获取所述混合专家网络模型根据所述提示信息输出的设备选取结果；其中，所述混合专家网络模型包括门控网络层、专家网络层和输出解码层，所述专家网络层包括多个子网络模型，每一所述子网络模型为一种生成式预训练GPT模型；所述混合专家网络模型是根据模型损失函数L训练得到的，模型损失函数L基于所述多个子网络模型的负载容量均衡程度，所述多个子网络模型输出的处理结果的权重分配平衡程度，以及所述混合专家网络模型的预测结果准确程度确定；

控制模块，用于控制所述设备选取结果指示的目标设备执行所述语音交互信息指示的操作。

第三方面，本申请提供一种计算机可读的存储介质，所述计算机可读的存储介质包括存储的程序，其中，所述程序运行时执行如第一方面所述的方法。

第四方面，本申请提供一种指令执行设备选取设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行如第一方面所述的方法。

本申请提供的一种基于大模型的指令执行设备选取方法、装置、设备和介质，通过在接收到用户终端发送的语音交互信息后，获取所述用户终端关联的组件流设备选取事件记录，并根据所述组件流设备选取事件记录，生成提示学习示例；获取所述用户终端关联的多个候选设备的设备信息，根据所述用户终端、所述语音交互信息和所述设备信息，获取当前已知条件信息；根据所述提示学习示例、所述当前已知条件信息和预设任务描述，生成提示信息，并将所述提示信息输入预训练的混合专家网络模型，并获取所述混合专家网络模型根据所述提示信息输出的设备选取结果；通过合理构造的提示信息，引导GPT模型对设备选取任务进行学习，充分发挥GPT模型强大的学习能力；基于混合专家网络模型的稀疏结构优势，在远少于稠密模型所需的计算资源下对混合专家网络模型进行有效的预训练；其中，所述混合专家网络模型包括门控网络层、专家网络层和输出解码层，所述专家网络层包括多个子网络模型，每一所述子网络模型为一种生成式预训练GPT模型；所述混合专家网络模型是根据模型损失函数L训练得到的，模型损失函数L基于所述多个子网络模型的负载容量均衡程度，所述多个子网络模型输出的处理结果的权重分配平衡程度，以及所述混合专家网络模型的预测结果准确程度确定，使得各子网络模型在训练过程中可以获得均衡的训练样本，并被赋予平等的重要性，从而使得训练完成的模型的输出结果平衡了各个子网络模型的选择，提升模型的健壮性和泛化性，确保了设备选择功能在复杂应用场景下的准确度。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是根据本申请实施例的一种基于大模型的指令执行设备选取方法的硬件环境示意图；

图2是根据本申请实施例提供的基于大模型的指令执行设备选取方法的流程示意图一；

图3是根据本申请实施例的一种用于指令执行设备选取的混合专家网络模型的架构示意图；

图4a至图4b是根据本申请实施例提供的基于大模型的指令执行设备选取方法的流程示意图二；

图5是根据本申请实施例的一种可选的指令执行设备选取装置的结构示意图；

图6是根据本申请实施例的一种可选的指令执行设备选取设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

针对上述问题，本申请提出了如下技术构思：接收到用户终端发送的语音交互信息后，获取所述用户终端关联的组件流设备选取事件记录，获取其中的多个组件流设备选取事件，作为提示学习示例的素材，生成提示学习示例；同时获取所述用户终端关联的多个候选设备的设备信息，根据所述用户终端、所述语音交互信息和所述设备信息，获取当前已知条件信息；根据所述提示学习示例、所述当前已知条件信息和预设任务描述，生成提示信息，并将所述提示信息输入预训练的混合专家网络模型，并获取所述混合专家网络模型根据所述提示信息输出的设备选取结果，所述混合专家网络模型包括门控网络层、专家网络层和输出解码层，所述专家网络层包括多个子网络模型，每一所述子网络模型为一种GPT模型；通过提示学习的方法，充分发挥GPT模型强大的学习能力；基于混合专家网络模型的稀疏结构优势，在远少于稠密模型所需的计算资源下对混合专家网络模型进行有效的预训练，提升模型的收敛和推理速度；所述混合专家网络模型是预先根据模型损失函数L训练得到，模型损失函数L基于所述多个子网络模型的负载容量均衡程度，所述多个子网络模型输出的处理结果的权重分配平衡程度，以及所述混合专家网络模型的预测结果准确程度确定，这样的训练方法，使得各子网络模型在训练过程中可以获得均衡的训练样本，并被赋予平等的重要性，从而使得训练完成的模型的输出结果平衡了各个子网络模型的选择，提升模型的健壮性和泛化性，确保了设备选择功能在复杂应用场景下的准确度。

下面对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下解释。

自然语言处理(Natural Language Processing)是人工智能领域中的一个重要研究方向,它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法，自然语言处理主要应用于机器翻译、舆情监测、自动摘要、观点提取、文本分类、问题回答、文本语义对比、语音识别、中文OCR等方面。

GPT（Generative Pre-trained Transformer）是一种基于Transformer架构的生成式自然语言处理模型。

提示学习（Prompt Learning）是指在不显著改变预训练语言模型结构和参数的情况下，通过为输入文本增加或拼接任务提示语言，即prompt提示词，将下游任务改为文本生成任务的学习方法。

混合专家网络（Mixture of Experts）包含一个门控网络（Gating Network）和MoE层，MoE层内部设有一定数量的“专家”，每个专家实际上是一个独立的神经网络。对于每一个输入，动态地由门网络选择若干个专家网络进行激活。

根据本申请实施例的一个方面，提供了一种基于大模型的指令执行设备选取方法。该基于大模型的指令执行设备选取方法广泛应用于智慧家庭（Smart Home）、智能家居、智能家用设备生态、智慧住宅（Intelligence House）生态等全屋智能数字化控制应用场景。可选的，在本实施例中，上述基于大模型的指令执行设备选取方法可以应用于如图1所示的由终端设备101和服务器102所构成的硬件环境中。如图1所示，终端设备101为语音控制的入口设备，用于在接收到用户发出的语音后，将语音信息发送给服务器102；服务器102通过网络与终端设备101进行连接，可用于为终端或终端上安装的客户端提供服务（如应用服务等），可在服务器上或独立于服务器设置数据库，用于为服务器102提供数据存储服务，可在服务器上或独立于服务器配置云计算和/或边缘计算服务，用于为服务器102提供数据运算服务。

上述网络可以包括但不限于以下至少之一：有线网络，无线网络。上述有线网络可以包括但不限于以下至少之一：广域网，城域网，局域网，上述无线网络可以包括但不限于以下至少之一：WIFI（Wireless Fidelity，无线保真），蓝牙。终端设备101可以并不限定于为PC、手机、平板电脑、智能空调、智能烟机、智能冰箱、智能烤箱、智能炉灶、智能洗衣机、智能热水器、智能洗涤设备、智能洗碗机、智能投影设备、智能电视、智能晾衣架、智能窗帘、智能影音、智能插座、智能音响、智能音箱、智能新风设备、智能厨卫设备、智能卫浴设备、智能扫地机器人、智能擦窗机器人、智能拖地机器人、智能空气净化设备、智能蒸箱、智能微波炉、智能厨宝、智能净化器、智能饮水机、智能门锁等。

本申请实施例的基于大模型的指令执行设备选取方法可以由服务器102来执行，也可以由终端设备101来执行，还可以是由服务器102和终端设备101共同执行。其中，终端设备101执行本申请实施例的基于大模型的指令执行设备选取方法也可以是由安装在其上的客户端来执行。

以由服务器102来执行本实施例中的基于大模型的指令执行设备选取方法为例，图2是根据本申请实施例提供的基于大模型的指令执行设备选取方法的流程示意图一，如图2所示，本申请实施例提供的基于大模型的指令执行设备选取方法，包括：

S201：响应于用户终端发送的语音交互信息，获取所述用户终端关联的组件流设备选取事件记录，并根据组件流设备选取事件记录，生成提示学习示例。

其中，所述组件流设备选取事件是通过基于组件流配置的设备选取方法得到的：基于组件流配置的设备选取方法为根据对语音交互信息的要素提取结果，获取与语音交互信息匹配的目标组件流程，并依次调用目标组件流程中的各个组件，对多个候选设备进行选取的方法；在用户每次通过组件流配置的设备选取方法对智能设备进行语音控制时，服务器获取本次入口设备发送的语音交互信息、当前入口设备关联的多个候选设备的设备信息，和目标组件流根据所述语音交互信息做出的设备选取结果，作为本次的设备选取事件，存储至组件流设备选取事件记录中。

具体的，在接收到用户终端发送的语音交互信息时，服务器按照预设的关联关系，例如可以为与所述用户终端属于同一个应用场景的设备的组件流选取事件记录，获取所述用户终端关联的组件流设备选取事件记录，并从组件流设备选取事件记录中获取多个事件，根据获取的多个事件生成提示学习示例；根据获取的多个事件生成提示学习示例的方法例如可以为将每个事件对应的语音交互信息、设备信息和设备选取结果转换为一条文本信息（或数据结构），获取多个事件对应的多条第一文本信息（或第一数据结构），并获取多条预设的提示学习示例的第二文本信息（或第二数据结构），将所述多条第一文本信息（或第一数据结构）和第二文本信息（或第二数据结构）作为提示学习示例；本申请实施例不对根据组件流设备选取事件记录，生成提示学习示例的具体方法做限定。

S202：获取所述用户终端关联的多个候选设备的设备信息，根据所述用户终端、所述语音交互信息和所述设备信息，获取当前已知条件信息。

其中，所述用户终端关联的多个候选设备例如可以为与所述用户终端属于同一个应用场景的候选设备，例如同一家庭住宅内的所有设备，或同一酒店房间内的所有设备等；所述候选设备的设备信息为所述候选设备的设备特征项集合，例如可以为所述候选设备的类型、功能、名称和位置等，本申请实施例不对所述设备信息的具体内容做限定；所述当前已知条件信息为每次使用混合专家网络模型时，需要在提示信息中向所述模型提供的多个判断条件的当前值的集合，即使用混合专家网络模型进行设备选取时，需要提供给混合专家网络模型的判断条件包括：接收语音交互信息的用户终端、所述语音交互信息和所述用户终端关联的多个候选设备的设备信息。

具体的，服务器从设备信息接口获取所述用户终端关联的多个候选设备的设备信息；服务器对所述语音交互信息进行解析和识别，获取所述语音交互信息对应的控制语句；获取所述用户终端的设备标识，根据所述用户终端的设备标识、所述控制语句和所述设备信息，确定当前已知条件信息。

S203：根据所述提示学习示例、所述当前已知条件信息和预设任务描述，生成提示信息，并将所述提示信息输入预训练的混合专家网络模型，并获取所述混合专家网络模型根据所述提示信息输出的设备选取结果。

其中，所述提示信息为prompt提示词，所述预设任务描述用于触发所述混合专家网络模型，并引导所述混合专家网络根据其提供的已知条件信息和提示学习示例，对其请求的内容（即设备选取结果）进行回答。

所述混合专家网络模型包括门控网络层、专家网络层和输出解码层，所述专家网络层包括多个子网络模型，每一所述子网络模型为一种生成式预训练GPT模型。

所述混合专家网络模型是根据模型损失函数L训练得到，模型损失函数L基于所述多个子网络模型的负载容量均衡程度，所述多个子网络模型输出的处理结果的权重分配平衡程度，以及所述混合专家网络模型的预测结果准确程度确定。

可以理解的，混合专家网络模型的门控网络会按照预设规则确定要激活的专家（即子网络模型），并将训练样本中的不同的词元输入至其对应的专家，但在对混合专家网络进行训练时，门控网络往往会倾向于主要激活相同的几个专家，并为这几个专家的输出分配较大的贡献权重，且在迭代优化过程中这种情况可能会自我加强，因为受欢迎的专家对输出的影响程度更大、训练得更快，导致它们更容易被选择。为了确保每个专家都能得到充分的训练，提升整个混合专家网络模型输出的准确性，本申请构建的模型损失函数基于所述多个子网络模型的负载容量均衡程度，即每个专家分得的词元数量的均衡程度，所述多个子网络模型输出的处理结果的权重分配平衡程度，以及所述混合专家网络模型的预测结果准确程度确定，以使训练过程倾向于赋予所有专家相同的重要性，从而平衡各专家之间的选择，确保预测结果准确，提升混合专家网络模型的泛化性和健壮性。

具体的，服务器根据所述提示学习示例、所述当前已知条件信息和预设任务描述，按照预设的提示信息生成算法生成提示信息，并通过模型调用接口，将所述提示信息输入预训练的混合专家网络模型，并获取所述混合专家网络模型根据所述提示信息输出的设备选取结果。

S204：控制所述设备选取结果指示的目标设备执行所述语音交互信息指示的操作。

具体的，服务器按照不同的设备选取结果与设备标识的预设对应关系，确定所述设备选取结果指示的目标设备，并根据对所述语音交互信息的解析结果，生成所述语音交互信息对应的控制指令，并将控制指令发送给目标设备，以使目标设备执行所述语音交互信息指示的操作。

本申请实施例提供的基于大模型的指令执行设备选取方法，通过接收到用户终端发送的语音交互信息后，获取所述用户终端关联的组件流设备选取事件记录，获取其中的多个组件流设备选取事件，作为提示学习示例的素材，生成提示学习示例；同时获取所述用户终端关联的多个候选设备的设备信息，根据所述用户终端、所述语音交互信息和所述设备信息，获取当前已知条件信息；根据所述提示学习示例、所述当前已知条件信息和预设任务描述，生成提示信息，并将所述提示信息输入预训练的混合专家网络模型，并获取所述混合专家网络模型根据所述提示信息输出的设备选取结果，所述混合专家网络模型包括门控网络层、专家网络层和输出解码层，所述专家网络层包括多个子网络模型，每一所述子网络模型为一种GPT模型；基于提示词的合理构建和GPT模型对小样本的学习能力，使得混合专家网络模型可以适应各种复杂的智慧家居场景；基于混合专家网络模型的稀疏结构优势，提升模型的收敛速度和推理速度，在远少于稠密模型所需的计算资源下对混合专家网络模型进行有效的预训练；所述混合专家网络模型是预先根据模型损失函数L训练得到，模型损失函数L基于所述多个子网络模型的负载容量均衡程度，所述多个子网络模型输出的处理结果的权重分配平衡程度，以及所述混合专家网络模型的预测结果准确程度确定，这样的训练方法，使得各子网络模型在训练过程中可以获得数量均衡的训练样本，并被赋予平等的重要性，从而使得训练完成的模型的输出结果平衡了各个子网络模型的选择，提升模型的健壮性和泛化性，确保了设备选择功能在复杂应用场景下的准确度。

图3是本申请实施例提供的用于指令执行设备选取的混合专家网络模型的架构示意图，如图3所示，本申请实施例提供的用于指令执行设备选取的混合专家网络模型300，包括：

门控网络层301，响应于服务器发送的模型调用指令，根据词元路由规则，将所述提示信息的不同的词元输入对应的目标子网络模型，并确定所述多个子网络模型的输出权重。

可选的，所述门控网络层301根据词元路由规则，将所述提示信息的不同的词元输入对应的目标子网络模型，并确定所述多个子网络模型的输出权重的具体方法步骤例如可以为：

S3011：门控网络层301获取所述提示信息t的不同的词元，将所述不同的词元输入权重分配模型；

S3012：门控网络层301根据所述权重分配模型的输出结果，获取每个所述词元对应的权重集合，所述词元与所述权重集合是一一对应的，所述词元对应的权重集合包括每个所述子网络模型对所述词元的贡献权重。

S3013：门控网络层301根据每个所述词元对应的权重集合中的每个贡献权重和所述词元路由规则指示的筛选条件，例如可以为选取贡献权重大小排名前三大的子网络模型作为目标子网络模型，确定所述每个词元对应的目标子网络模型，并将所述每个词元输入所述词元对应的目标子网络模型。

S3014：门控网络层301根据每个所述目标子网络模型对每个所述词元的贡献权重，获取所述目标子网络模型对每个所述词元的输出权重。

专家网络层302，包括多个子网络模型。

其中，每一所述子网络模型响应于服务器发送的模型调用指令，根据所述门控网络层输入的不同的词元，输出对所述不同的词元的处理结果。

输出解码层303，响应于服务器发送的模型调用指令，根据所述多个子网络模型的输出权重和所述多个子网络模型对所述不同的词元的处理结果，获取设备选取结果并输出所述设备选取结果。

可选的，输出解码层303根据所述多个子网络模型的输出权重和所述多个子网络模型对所述不同的词元的处理结果，获取设备选取结果并输出所述设备选取结果的具体方法步骤例如可以为：

S3031：输出解码层303获取不同的目标子网络模型对每个所述词元的处理结果。

S3032：输出解码层303根据所述不同的目标子网络模型对每个所述词元的处理结果和所述不同的目标子网络模型对每个所述词元的贡献权重，对不同的目标子网络模型对同一个词元的处理结果进行加权求和处理，并获取所述专家网络层对每个所述词元的联合处理结果。

S3033：输出解码层303根据所述专家网络层302对每个所述词元的联合处理结果，获取所述提示信息对应的聚合处理结果。

S3034：输出解码层303对所述聚合输出结果进行解码处理，获取所述混合专家网络模型300的设备选取结果并输出。

可选的，用于指令执行设备选取的混合专家网络模型是根据模型损失函数L训练得到的；其中，所述模型损失函数L的表达式为：；

其中，为基于极大似然估计的损失函数；/>为负载均衡损失函数；/>为贡献均衡损失函数；所述基于极大似然估计的损失函数用于约束所述混合专家网络模型的预测结果准确程度；所述负载均衡损失函数用于约束所述多个子网络模型的负载容量均衡程度，所述贡献均衡损失函数用于约束所述多个子网络模型输出的处理结果的权重分配平衡程度；和/>为通过随机搜索或贝叶斯优化获得的超参数，用于调整负载均衡损失和贡献均衡损失相对于/>的重要程度。

所述混合专家网络模型的训练方法例如可以为：将预处理完成的训练样本输入初始的混合专家网络模型，通过前向传播算法获取混合专家网络模型的输出结果，并根据所述输出结果和预定义的模型损失函数，通过梯度下降法对混合专家网络模型中的各参数进行优化，直至所述模型损失函数L的值小于预设值或满足预设训练次数时，得到训练完成的混合专家网络模型。

可选的，负载均衡损失函数，表达式为：/>。/>

其中，为预设的超参数；/>为向所述混合专家网络中输入训练样本后，所述训练样本包括B个词元，/>，B为正整数且B大于1，所述训练样本中的每个词元被输入至索引为e的子网络模型/>的概率的平均值。

表达式为：/>。

为向所述混合专家网络中输入训练样本后，所述训练样本中的每个词元被输入至索引为e的子网络模型/>的概率大于所述词元被输入至其余子网络模型的概率这一事件的概率。

表达式为：/>。

其中，为示性函数，/>为词元/>被输入至各子网络模型的概率，/>；在词元/>被输入至索引为e的子网络模型/>的概率大于所述词元被输入至其余子网络模型的概率时，所述示性函数取值为1，其余情况所述示性函数取值为0。

为基于/>概率分布的信息熵函数，用于表征各子网络模型被分配的词元的数量的均衡程度，

表达式为：/>。

为基于/>概率分布的信息熵函数，用于表征不同的词元被分配至各子网络模型的偏好均衡程度，

表达式为：/>。

根据如上所述，均衡损失函数可由下式计算；

。

可以理解的，在词元总数一定的情况下，训练样本中每个词元被分配至各个子网络模型的可能性越相近，即各子网络模型的负载均衡程度越大，基于概率分布的信息熵函数和基于/>概率分布的信息熵函数的值越大，所述负载均衡损失函数/>的数值就越小。

可选的，所述混合专家网络模型的贡献均衡损失函数，表达式为：/>

。

其中，向量为词元/>经过门控网络最后一个隐层输出的未归一化的分数值向量，所述向量/>，其中，N为所述混合专家网络中的子网络模型的总数且N为正整数;其第e维的向量值/>是门控网络为子网络模型/>分配的未归一化分数值。

为变异系数函数，用于衡量所述向量/>的每一维的向量值大小的分布离散程度，所述/>的表达式为，/>。

由于变异系数的计算公式为，其中/>和/>分别为标准差和期望。考虑到/>的无偏估计为/>，且/>的无偏估计为，因此贡献均衡损失函数可由下式计算得到：

。

其中，，N为所述混合专家网络中的子网络模型的总数且N为正整数。

可以理解的，在词元总数一定的情况下，各个子网络模型对训练样本中每个词元的贡献权重越相近，即各子网络模型输出的处理结果的权重分配平衡程度越大，所述变异系数就越大，贡献均衡损失函数就越小。

基于极大似然估计的损失函数，

表达式为，用于表征模型预测的概率分布与实际训练语料中下一个单词的概率分布的接近程度，即模型预测结果的准确程度，模型的预测结果与真实值越接近，所述损失函数/>就越小。

其中，为给定前k个词元/>的条件下，模型预测下一个词元为/>的概率；k为上下文的窗口大小，即根据前k个词来预测目标词。

根据如上所述，模型损失函数的表达式为：

/>。

其中，超参数和/>，用来分别调整负载均衡损失和贡献均衡损失相对于原始训练损失函数的重要程度，超参数/>和/>例如可以通过随机搜索或贝叶斯优化获得。

可以理解的，在根据上述模型损失函数对模型进行训练的过程中，通过梯度下降法，使得模型以向模型损失函数最小化的方向收敛，直至模型损失函数小于预设的阈值，此时可以认为在以/>与/>和/>的加权合小于一定限值的约束下，达到最小值；即可以认为此时得到的所述混合专家网络模型，在兼顾所述多个子网络模型的负载容量均衡程度和所述多个子网络模型输出的处理结果的权重分配平衡程度的前提下，实现了对训练样本的准确预测。

以由服务器102来执行本实施例中的基于大模型的指令执行设备选取方法为例，图4a至图4b是根据本申请实施例提供的基于大模型的指令执行设备选取方法的流程示意图二，如图4a至图4b所示，本申请实施例提供的基于大模型的指令执行设备选取方法，包括：

S401：在每次获取到入口终端发送的语音交互信息时，对所述语音交互信息进行要素提取，得到至少一个目标要素。

具体的，在获取到目标控制语句之后，服务器可以从目标控制语句提取出目标控制语句包含的至少一个目标要素，目标要素是用于进行设备选取的语句要素，可以但不限于为以下语句要素：用于指示待选择的智能设备所在位置区域的要素，用于指示待选择的智能设备所在楼层的要素，用于指示待选择的智能设备的设备名称或设备昵称的要素，本实施例中对此不做限定。

S402：根据所述至少一个目标要素的要素类型，确定与所述语音交互信息匹配的目标组件流程。

其中，所述目标组件流程包含与每个目标要素的要素类型匹配的组件，与所述每个目标要素的要素类型匹配的组件用于按照所述每个目标要素对入口终端关联的多个智能设备执行设备选取操作；每个预设要素类型可以分别对应于一个组件，不同的预设要素类型对应的组件用于按照对应的预设要素类型对多个智能设备执行设备筛选操作。当组件被执行时，可以按照与该组件对应的目标要素对多个智能设备进行筛选，得到与对应的目标要素匹配的智能设备。例如，当组件为与楼层匹配的组件时，可以按照多个智能设备所在的楼层进行筛选，从多个智能设备中筛选出位于特定楼层的智能设备。可选的，不同的组件所对应的预设要素类型可以是不同的，例如，组件A可以与“楼层”要素类型对应，组件B可以与“房间名”要素类型对应。

具体的，可以先根据至少一个目标要素的要素类型确定与至少一个目标要素的要素类型匹配的要素向量，再将与确定出的要素向量匹配的组件流程，确定为至少一个目标要素的要素类型匹配的目标组件流程。

S403：获取所述入口终端关联的多个智能设备的设备信息，并依次调用所述目标组件流程中的各个组件根据所述设备信息对所述多个智能设备执行设备选取操作，得到目标智能设备。

其中，所述候选设备的设备信息为所述候选智能设备的设备特征项集合，所述设备特征项例如可以包括：所述候选设备的类型，所述候选设备的名称，所述候选设备的位置或所述候选设备的在线状态中的至少一种。

具体的，先使用目标组件流程中的一个组件对多个智能设备执行设备选取操作，得到选取后的智能设备，再使用目标组件流程中的下一个组件对选取后的智能设备继续执行设备选取操作，直到目标组件流程中的所有组件都执行了对多个智能设备的设备选取操作，最后，将所有目标组件对多个智能设备进行设备选取操作后得到的智能设备，确定为目标智能设备。

例如，当目标组件流程包括组件A，组件B以及组件C时，可以依次使用这三个组件对多个智能设备执行设备选取操作，确定出特定智能设备（即，上述目标智能设备）。

S404：根据所述设备信息列表、所述入口终端、所述语音交互信息和所述目标智能设备，生成设备选取事件，并存储至所述组件流设备选取事件记录。

其中，所述用户终端关联的组件流设备选取事件记录包括通过执行步骤S401至步骤S404所述的方法预先生成并存储的多个设备选取事件。所述组件流设备选取记录中的每个所述设备选取事件包括历史语音交互信息、所述历史语音交互信息对应的入口终端、所述历史语音交互信息对应的目标智能设备和历史设备信息列表。

具体的，服务器将所述语音交互信息作为历史语音交互信息；将当前获取的设备信息列表作为历史设备信息列表；将所述入口终端作为所述历史语音交互信息对应的入口终端；所述目标智能设备作为历史语音交互信息对应的目标智能设备；生成包括所述历史语音交互信息、所述历史语音交互信息对应的入口终端、所述历史语音交互信息对应的目标智能设备和历史设备信息列表的设备选取事件，并存储至所述组件流设备选取事件记录；所述设备选取事件可以为存储有上述信息项的数据结构；所述组件流设备选取记录可以是存储有多个所述数据结构的数据表。

S405：响应于用户终端发送的语音交互信息，获取所述用户终端关联的组件流设备选取事件记录中的多个目标设备选取事件。

步骤S405的实现方式与步骤S101的实现方式类似，本实施例在此不再赘述。

S406：根据每个所述目标设备选取事件的历史语音交互信息、所述历史语音交互信息对应的入口终端和历史设备信息列表，获取每个所述提示学习示例的已知条件信息示例。

可选的，所述提示学习示例包括：已知条件信息示例和所述已知条件信息示例对应的设备选取结果。

可以理解的，混合专家网络模型根据提示信息进行提示学习的过程，本质上是将提示信息中的提示学习示例作为模型训练的小样本，因此，为使设备选取功能灵活适应各种复杂多变的智能家居场景，可以将当前场景下发生过的组件流设备选取事件作为提示学习示例的素材，提供给所述混合专家网络模型进行提示学习，使得所述混合专家网络的对设备选取的学习更加符合当前应用场景的需求，提升设备选取结果的准确率。

具体的，服务器根据目标选取事件的历史设备信息列表，获取所述已知条件信息示例的设备信息；服务器根据所述目标选取时间的所述语音交互信息的解析结果，获取所述已知条件信息示例的语音交互信息；根据所述历史语音交互信息对应的入口终端的设备标识，获取当前已知条件信息示例的入口设备。

例如，一个所述提示学习示例的当前已知条件信息示例的具体内容可以如下所示：

设备信息=[

{floor：负一层，room：地下室，deviceType：灯，nickname：灯1，online：false},

{floor：负一层，room：地下室，deviceType：灯，nickname：灯3，online：false},

{floor：二层，room：客厅，deviceType：灯，nickname：灯1，online：true}，

{floor：一层，room：客厅，deviceType：灯，nickname：灯4，online：true}].\n

入口设备为：{floor：一层，room：客厅，deviceType:音箱}。

语音交互信息是:“开灯”。

S407：根据每个所述目标设备选取事件的历史目标设备，获取每个所述提示学习示例的设备选取结果。

其中，每个所述目标设备选取事件与每个所述提示学习示例是一一对应的。

继续参照上述示例，所述目标设备选取事件的历史目标设备为：

{floor：一层，room：客厅，deviceType：灯，nickname：灯4}

则确定所述提示学习示例的设备选取结果为：

{floor：一层，room：客厅，deviceType：灯，nickname：灯4}。

S408：根据每个所述提示学习示例的已知条件信息示例、设备选取结果和预设的学习示例描述模版，生成多个所述提示学习示例。

继续参照上述示例，一个所述提示学习示例的具体内容可以如下所示：

设备信息=[

入口设备为：{floor：一层，room：客厅，deviceType:音箱}。

用户对该设备说:“开灯”，输出{floor：一层，room：客厅，deviceType：灯，nickname：灯4}。

可选的，所述提示学习示例可以是包括已知条件信息示例、设备选取结果和预设的学习示例描述模版的自然语言文本，也可以是包括预设的学习示例描述模版指示的字段及所述字段对应的值的数据结构，本实施例不对所述提示学习示例的数据格式做限定。

S409：获取预设的当前已知信息描述，根据所述用户终端、所述设备信息、所述语音交互信息，分别确定多个待确定条件入参的参数值。

其中，所述当前已知条件信息描述包括：多个待确定条件入参和所述多个待确定条件入参的预设描述，所述多个待确定条件入参包括当前用户终端入参、当前设备信息入参和当前语音交互信息入参。

具体的，服务器从相应存储位置获取预设的当前已知信息描述，根据所述用户终端的设备标识，确定当前用户终端入参的参数值；根据所述多个候选智能设备的设备信息，确定当前设备信息入参的参数值；根据所述控制语句，确定当前语音交互信息入参的参数值。

当前已知条件信息描述的具体形式例如可以如下所示：

当前设备信息列表="<deviceListInfo>"，当前用户终端="<entryDeviceInfo>"，当前语音交互信息="<userInput>"。

其中，<deviceListInfo>为当前设备信息入参；<entryDeviceInfo>为当前用户终端入参；<userInput>为当前语音交互信息入参。

S410：根据所述多个待确定入参的参数值和所述多个待确定状态入参的预设描述，获取当前已知条件信息。

具体的，服务器根据所述多个待确定入参的参数值和预设的所述多个待确定状态入参的描述，生成包括所述多个待确定入参的参数值对应的字符串和所述多个待确定状态入参的描述的文本信息。

S411：根据所述提示学习示例、所述当前已知条件信息和预设任务描述，生成多个字符串。

其中，所述多个字符串包括提示学习示例字符串、已知条件信息字符串和预设任务描述字符串，所述预设任务描述包括背景描述和请求描述，用于指示所述混合专家网络模型学习所述提示学习示例，以使所述混合专家网络模型根据当前已知条件信息，确定所述多个候选智能设备的设备信息中的任一设备信息作为设备选取结果并输出。

具体的，服务器对所述提示学习示例、所述当前已知条件信息和预设任务描述进行解析，并根据解析结果分别生成相应的提示学习示例字符串、已知条件信息字符串和预设任务描述字符串。

S412：获取预设的提示信息文本模版。

S413：按照预设的字符串匹配规则，确定每个所述字符串在所述提示信息文本模版中的目标槽位。

S414：根据所述提示信息文本模版、每个所述字符串和所述字符串对应的目标槽位，生成提示信息。

具体的，服务器根据不同的字符串的类别与不同槽位的预设对应关系，将每个字符串的类别对应的槽位作为所述字符串在所述提示信息文本模版中的目标槽位；将每个字符串填入其对应的在所述提示信息文本模版中的目标槽位，获取填充完成的文本模版作为提示信息。

提示信息的具体形式例如可以如下所示：

prompt=“你是一个设备选取器，你需要综合考虑语音交互信息、语音交互信息的入口设备以及设备信息列表，从设备信息列表中选取出最有可能执行语音交互信息的设备。每次选取最有可能执行语音交互信息的设备前，我都会提供当前语音交互信息、当前语音交互信息的入口设备以及当前设备信息列表，请参照以下示例，从当前设备信息列表中选取出当前最有可能执行语音交互信息的设备。

For example：\n设备信息=[

{floor：二层，room：客厅，deviceType：灯，nickname：灯1，online：true},

{floor：一层，room：客厅，deviceType：灯，nickname：灯4，online：true},

{floor：一层，room：客厅，deviceType：空调，nickname：柜机，online：false},

{floor：一层，room：客厅，deviceType：空调，nickname：挂机，online：true},

{floor：一层，room：客厅，deviceType：窗帘，nickname：窗帘1，online：false},

{floor：一层，room：客厅，deviceType：窗帘，nickname：纱帘，online：true},

{floor：一层，room：客厅，deviceType：窗帘，nickname：布帘，online：false},

{floor：一层，room：卧室，deviceType：灯，nickname：台灯，online：false},

{floor：一层，room：卧室，deviceType：灯，nickname：吊顶灯，online：true},

{floor：一层，room：卧室，deviceType：空调，nickname：空调，online：false},

{floor：一层，room：卧室，deviceType：窗帘，nickname：窗帘1，online：true},

{floor：一层，room：厨房，deviceType：冰箱，nickname：冰箱1，online：true},

{floor：一层，room：厨房，deviceType：空调，nickname：空调1，online：true},

{floor：一层，room：儿童房，deviceType：灯，nickname：灯，online：false},

{floor：一层，room：儿童房，deviceType：空调，nickname：立式空调，online：false},

{floor：一层，room：儿童房，deviceType：窗帘，nickname：窗帘，online：true}].\n

入口终端为：{floor：一层，room：客厅，deviceType:音箱}。

语音交互信息为“开灯”，输出{floor：一层，room：客厅，deviceType：灯，nickname：灯4}。

设备信息=[

入口终端为：{floor：一层，room：客厅，deviceType:音箱}。

语音交互信息为“把窗帘拉开”，输出{floor：一层，room：客厅，deviceType：窗帘，nickname：纱帘}。

设备信息=[

入口终端为：{floor：一层，room：客厅，deviceType:音箱}。

语音交互信息为“设置零下五度”，输出{floor：一层，room：厨房，deviceType：冰箱，nickname：冰箱1}。

Based on the above information, answer the following questions: \n

当前设备信息="{floor：一层，room：车库，deviceType：灯，nickname：灯1，online：false},

{floor：一层，room：客厅，deviceType：电视，nickname：电视1，online：true},

{floor：一层，room：厨房，deviceType：冰箱，nickname：冰箱1，online：true}",

当前用户终端="{floor：一层，room：客厅，deviceType:电视}",

当前语音交互信息="把灯打开", 此时最有可能执行控制语句的设备是什么设备？\n"”

S415：将所述提示信息输入预训练的混合专家网络模型，并获取所述混合专家网络模型根据所述提示信息输出的设备选取结果。

步骤S415的实现方式与步骤S103的实现方式类似，本实施例在此不再赘述。

S416：控制所述设备选取结果指示的目标设备执行所述语音交互信息指示的操作。

步骤S416的实现方式与步骤S104的实现方式类似，本实施例在此不再赘述。

本申请实施例提供的基于大模型的指令执行设备选取方法，通过将当前场景下发生过的组件流设备选取事件作为提示学习示例的素材，提供给所述混合专家网络模型进行提示学习，使得所述混合专家网络的对设备选取的学习更加符合当前应用场景的需求，提升了设备选取结果的准确率。

图5为本申请实施例提供的一种指令执行设备选取装置的结构示意图；如图5所示，本申请提供指令执行设备选取装置，该指令执行设备选取装置500，包括：

获取模块501，用于响应于用户终端发送的语音交互信息，获取所述用户终端关联的组件流设备选取事件记录，并根据所述组件流设备选取事件记录，生成提示学习示例；获取所述用户终端关联的多个候选设备的设备信息，根据所述用户终端、所述语音交互信息和所述设备信息，获取当前已知条件信息；

生成模块502，用于根据所述提示学习示例、所述当前已知条件信息和预设任务描述，生成提示信息，并将所述提示信息输入预训练的混合专家网络模型，并获取所述混合专家网络模型根据所述提示信息输出的设备选取结果；其中，所述混合专家网络模型包括门控网络层、专家网络层和输出解码层，所述专家网络层包括多个子网络模型，每一所述子网络模型为一种生成式预训练GPT模型；所述混合专家网络模型是根据模型损失函数L训练得到的，模型损失函数L基于所述多个子网络模型的负载容量均衡程度，所述多个子网络模型输出的处理结果的权重分配平衡程度，以及所述混合专家网络模型的预测结果准确程度确定；

控制模块503，用于控制所述设备选取结果指示的目标设备执行所述语音交互信息指示的操作。

可选的，所述混合专家网络模型是根据模型损失函数L训练得到的；其中，所述模型损失函数L的表达式为：

；

其中，为基于极大似然估计的损失函数；/>为负载均衡损失函数；/>为贡献均衡损失函数；所述基于极大似然估计的损失函数用于约束所述混合专家网络模型的预测结果准确程度；所述负载均衡损失函数用于约束所述多个子网络模型的负载容量均衡程度，所述贡献均衡损失函数用于约束所述多个子网络模型输出的处理结果的权重分配平衡程度；和/>为通过随机搜索或贝叶斯优化获得的超参数，用于调整负载均衡损失和贡献均衡损失相对于/>的重要程度；在所述模型损失函数L的值小于预设值或满足预设训练次数时，得到训练完成的混合专家网络模型。/>

可选的，所述多个子网络模型的负载容量均衡程度是根据负载均衡损失函数确定的，所述负载均衡损失函数/>，表达式为：/>；

其中，为预设的超参数；

为基于/>概率分布的信息熵函数；

为基于/>概率分布的信息熵函数。

可选的，所述的表达式为：

；

所述的表达式为：/>；

可选的，所述的表达式为：/>；

其中，为示性函数，/>为词元/>被输入至各子网络模型的概率，/>；

所述表达式为：/>；

可选的，所述多个子网络模型输出的处理结果的权重分配平衡程度是根据贡献均衡损失函数确定的，所述贡献均衡损失函数/>，表达式为：/>；

可选的，所述控制模块503，还用于控制所述混合专家网络模型中的所述门控网络层根据词元路由规则，将所述提示信息的不同的词元输入对应的目标子网络模型，并确定所述多个子网络模型的输出权重；

可选的，所述控制模块503，具体用于控制所述门控网络层获取所述提示信息的不同的词元，将所述不同的词元输入权重分配模型；控制所述门控网络层根据所述权重分配模型的输出结果，获取每个所述词元对应的权重集合，所述词元与所述权重集合是一一对应的，所述词元对应的权重集合包括每个所述子网络模型对所述词元的贡献权重；控制所述门控网络层根据每个所述词元对应的权重集合中的每个贡献权重和所述词元路由规则指示的筛选条件，确定所述每个词元对应的目标子网络模型，并将所述每个词元输入所述词元对应的目标子网络模型；控制所述门控网络层根据每个所述目标子网络模型对每个所述词元的贡献权重，获取所述目标子网络模型对每个所述词元的输出权重。

可选的，所述控制模块503，具体用于控制所述输出解码层获取不同的目标子网络模型对每个所述词元的处理结果；控制所述输出解码层根据所述不同的目标子网络模型对每个所述词元的处理结果和所述不同的目标子网络模型对每个所述词元的贡献权重，对不同的目标子网络模型对同一个词元的处理结果进行加权求和处理，并获取所述专家网络层对每个所述词元的联合处理结果；控制所述输出解码层根据所述专家网络层对每个所述词元的联合处理结果，获取所述提示信息对应的聚合处理结果；控制所述输出解码层对所述聚合输出结果进行解码处理，获取所述混合专家网络模型的设备选取结果并输出。

可选的，所述用户终端关联的组件流设备选取事件记录包括预先存储的多个设备选取事件，所述设备选取事件包括历史语音交互信息、所述历史语音交互信息对应的入口终端、所述历史语音交互信息对应的目标智能设备和历史设备信息列表；所述获取模块501，还用于在每次获取到入口终端发送的语音交互信息时，对所述语音交互信息进行要素提取，得到至少一个目标要素，其中，所述目标要素是用于进行设备选取的语句要素；根据所述至少一个目标要素的要素类型，确定与所述语音交互信息匹配的目标组件流程，其中，所述目标组件流程包含与每个目标要素的要素类型匹配的组件，与所述每个目标要素的要素类型匹配的组件用于按照所述每个目标要素对所述入口终端关联的多个智能设备执行设备选取操作，所述目标要素的要素类型为一种预设要素类型，所述预设要素类型包括以下至少之一：设备类型，设备标识，设备位置；获取所述入口终端关联的多个智能设备的设备信息，并依次调用所述目标组件流程中的各个组件根据所述设备信息对所述多个智能设备执行设备选取操作，得到目标智能设备；根据所述设备信息列表、所述入口终端、所述语音交互信息和所述目标智能设备，生成设备选取事件，并存储至所述组件流设备选取事件记录。

可选的，所述获取模块501，具体用于获取预设的当前已知信息描述，其中，所述当前已知条件信息描述包括：多个待确定条件入参和所述多个待确定条件入参的预设描述，所述多个待确定条件入参包括当前用户终端入参、当前设备信息入参和当前语音交互信息入参；根据所述用户终端、所述设备信息、所述语音交互信息，分别确定所述多个待确定条件入参的参数值；根据所述多个待确定入参的参数值和所述多个待确定状态入参的预设描述，获取当前已知条件信息。

可选的，所述获取模块501，具体用于获取所述组件流设备选取事件记录中的多个目标设备选取事件；根据每个所述目标设备选取事件的历史语音交互信息、所述历史语音交互信息对应的入口终端和历史设备信息列表，获取每个所述提示学习示例的已知条件信息示例；根据每个所述目标设备选取事件的历史目标设备，获取每个所述提示学习示例的设备选取结果，其中，每个所述目标设备选取事件与每个所述提示学习示例是一一对应的；

所述生成模块502，具体用于根据每个所述提示学习示例的已知条件信息示例、设备选取结果和预设的学习示例描述模版，生成多个所述提示学习示例。

可选的，所述预设任务描述包括背景描述和请求描述，用于指示所述混合专家网络模型学习所述提示学习示例，以使所述混合专家网络模型根据当前已知条件信息，确定所述多个候选智能设备的设备信息中的任一设备信息作为设备选取结果并输出；所述生成模块502，具体用于根据所述提示学习示例、所述当前已知条件信息和预设任务描述，生成多个字符串，其中，所述多个字符串包括提示学习示例字符串、已知条件信息字符串和预设任务描述字符串；获取预设的提示信息文本模版；按照预设的字符串匹配规则，确定每个所述字符串在所述提示信息文本模版中的目标槽位；根据所述提示信息文本模版、每个所述字符串和所述字符串对应的目标槽位，生成提示信息。

图6为本申请实施例提供的一种指令执行设备选取设备的结构示意图，如图6所示，该指令执行设备选取设备600包括：至少一个处理器601和存储器602；此外，该指令执行设备选取设备600还可具有通讯接口604，用于接收和发送指令。

其中，处理器601，存储器602和通讯接口604通过总线603连接；

其中，计算机程序存储在存储器602中，并被配置为由处理器601执行以实现本申请图1-图4b所对应的任意实施例提供的基于大模型的指令执行设备选取方法；

图6所示实施例的指令执行设备选取设备可用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

另外，本实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行以实现上述实施例的基于大模型的指令执行设备选取方法。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）或处理器（processor）执行本发明各个实施例方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-OnlyMemory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

本领域技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述的装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种基于大模型的指令执行设备选取方法，其特征在于，包括：

控制所述设备选取结果指示的目标设备执行所述语音交互信息指示的操作。

2.根据权利要求1所述的方法，其特征在于，所述混合专家网络模型是根据模型损失函数L训练得到的；其中，所述模型损失函数L的表达式为：；其中，/>为基于极大似然估计的损失函数；/>为负载均衡损失函数；/>为贡献均衡损失函数；所述基于极大似然估计的损失函数用于约束所述混合专家网络模型的预测结果准确程度；所述负载均衡损失函数用于约束所述多个子网络模型的负载容量均衡程度，所述贡献均衡损失函数用于约束所述多个子网络模型输出的处理结果的权重分配平衡程度；/>和/>为通过随机搜索或贝叶斯优化获得的超参数，用于调整负载均衡损失和贡献均衡损失相对于/>的重要程度；在所述模型损失函数L的值小于预设值或满足预设训练次数时，得到训练完成的混合专家网络模型。

3.根据权利要求1所述的方法，其特征在于，所述多个子网络模型的负载容量均衡程度是根据负载均衡损失函数确定的，所述负载均衡损失函数/>，表达式为：

；

其中，为预设的超参数；

为向所述混合专家网络中输入训练样本后，所述训练样本包括B个词元，B为正整数且B大于1，所述训练样本中的每个词元被输入至索引为e的子网络模型/>的概率的平均值；/>为向所述混合专家网络中输入训练样本后，所述训练样本中的每个词元被输入至索引为e的子网络模型/>的概率大于所述词元被输入至其余子网络模型的概率这一事件的概率；/>为基于/>概率分布的信息熵函数；

为基于/>概率分布的信息熵函数。

4.根据权利要求3所述的方法，其特征在于，所述的表达式为：

；

所述的表达式为：/>；

5.根据权利要求3所述的方法，其特征在于，所述的表达式为：

；

所述表达式为：/>；

6.根据权利要求1所述的方法，其特征在于，所述多个子网络模型输出的处理结果的权重分配平衡程度是根据贡献均衡损失函数确定的，所述贡献均衡损失函数/>，表达式为：

；

7.根据权利要求1所述的方法，其特征在于，所述根据所述提示学习示例、所述当前已知条件信息和预设任务描述，生成提示信息，并将所述提示信息输入预训练的混合专家网络模型之后，所述方法包括：

8.根据权利要求7所述的方法，其特征在于，所述控制所述混合专家网络模型中的所述门控网络层根据词元路由规则，将所述提示信息的不同的词元输入对应的目标子网络模型，并确定所述目标子网络模型的输出权重，包括：

9.根据权利要求7所述的方法，其特征在于，所述控制所述混合专家网络模型中的所述输出解码层根据所述多个子网络模型的输出权重和所述多个子网络模型对所述不同的词元的处理结果，获取设备选取结果并输出所述设备选取结果，包括：

10.根据权利要求1所述的方法，其特征在于，所述用户终端关联的组件流设备选取事件记录包括预先存储的多个设备选取事件，所述设备选取事件包括历史语音交互信息、所述历史语音交互信息对应的入口终端、所述历史语音交互信息对应的目标智能设备和历史设备信息列表；

11.根据权利要求1所述的方法，其特征在于，所述获取所述用户终端关联的多个候选设备的设备信息，根据所述用户终端、所述语音交互信息和所述设备信息，获取当前已知条件信息，包括：

12.根据权利要求1所述的方法，其特征在于，所述提示学习示例包括：已知条件信息示例和所述已知条件信息示例对应的设备选取结果；所述根据组件流设备选取事件记录，生成提示学习示例，包括：

13.根据权利要求1所述的方法，其特征在于，所述预设任务描述包括背景描述和请求描述，用于指示所述混合专家网络模型学习所述提示学习示例，以使所述混合专家网络模型根据当前已知条件信息，确定所述多个候选智能设备的设备信息中的任一设备信息作为设备选取结果并输出；所述根据所述提示学习示例、所述当前已知条件信息和预设任务描述，生成提示信息，包括：

获取预设的提示信息文本模版；

14.一种指令执行设备选取装置，其特征在于，包括：

15.一种计算机可读的存储介质，其特征在于，所述计算机可读的存储介质包括存储的程序，其中，所述程序运行时执行权利要求1至13中任一项所述的方法。

16.一种指令执行设备选取设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行权利要求1至13中任一项所述的方法。