CN112329948A

CN112329948A - 一种多智能体策略预测方法及装置

Info

Publication number: CN112329948A
Application number: CN202011217545.XA
Authority: CN
Inventors: 申丽; 张申傲; 韩磊; 沈力; 李志锋; 刘威
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-11-04
Filing date: 2020-11-04
Publication date: 2021-02-05
Anticipated expiration: 2040-11-04
Also published as: CN112329948B

Abstract

本申请公开一种多智能体策略预测方法及装置；本申请与人工智能的机器学习领域相关，可以获取多个智能体交互环境的训练数据，以及获取多个智能体交互环境的隐变量概率分布；根据多个智能体交互环境的隐变量概率分布，确定训练数据的至少一个目标隐变量；将训练数据和目标隐变量输入强化学习模型，以得到多个智能体交互环境的结构因子概率分布；将训练数据及其对应的目标结构因子输入强化学习模型，得到训练数据对应的动作策略、以及动作策略的奖励信息；基于训练数据、目标结构因子、动作策略、以及动作策略的奖励信息，对强化学习模型进行训练，以通过训练后的强化学习模型对多个智能体进行动作策略预测。

Description

一种多智能体策略预测方法及装置

技术领域

本申请涉及人工智能领域，具体涉及一种多智能体策略预测方法及装置。

背景技术

强化学习作为人工智能的一个子领域，可以通过强化学习模型为智能体预测动作策略，比如，可以通过强化学习模型为环境中的多个智能体预测动作策略，动作策略质量可以通过奖励衡量，现有技术通常在固定环境下进行强化学习模型的训练，以得到固定环境下每一智能体的高奖励策略。

在对现有技术的研究和实践过程中，本申请的发明人发现，由于智能体的高奖励策略基于固定环境，而实际应用时智能体的环境多种多样，导致训练后的强化学习模型的可应用范围较小。

发明内容

本申请实施例提供一种多智能体策略预测方法及装置，可以提升训练后的强化学习模型的应用范围。

本申请实施例提供一种多智能体策略预测方法，包括：

获取多个智能体交互环境的训练数据，以及获取多个智能体交互环境的隐变量概率分布；

根据所述多个智能体交互环境的隐变量概率分布，确定训练数据的至少一个目标隐变量，其中，所述目标隐变量包括对训练数据所属智能体交互环境中智能体的动作策略产生影响的变量；

将所述训练数据和所述目标隐变量输入强化学习模型，以得到多个智能体交互环境的结构因子概率分布；

将所述训练数据及其对应的目标结构因子输入所述强化学习模型，得到所述训练数据对应的动作策略、以及所述动作策略的奖励信息，所述目标结构因子基于所述多个智能体交互环境的结构因子概率分布确定，所述目标结构因子包括所述训练数据所属智能体交互环境的特征，所述动作策略包括所述训练数据在其所属智能体交互环境中智能体的动作策略；

基于所述训练数据、所述目标结构因子、所述动作策略、以及所述动作策略的奖励信息，对所述强化学习模型进行训练，以通过训练后的强化学习模型对多个智能体进行动作策略预测。

相应地，本申请提供一种多智能体策略预测装置，包括：

获取模块，用于获取多个智能体交互环境的训练数据，以及获取多个智能体交互环境的隐变量概率分布；

确定模块，用于根据所述多个智能体交互环境的隐变量概率分布，确定训练数据的至少一个目标隐变量，其中，所述目标隐变量包括对训练数据所属智能体交互环境中智能体的动作策略产生影响的变量；

第一输入模块，用于将所述训练数据和所述目标隐变量输入强化学习模型，以得到多个智能体交互环境的结构因子概率分布；

第二输入模块，用于将所述训练数据及其对应的目标结构因子输入所述强化学习模型，得到所述训练数据对应的动作策略、以及所述动作策略的奖励信息，所述目标结构因子基于所述多个智能体交互环境的结构因子概率分布确定，所述目标结构因子包括所述训练数据所属智能体交互环境的特征，所述动作策略包括所述训练数据在其所属智能体交互环境中智能体的动作策略；

训练模块，用于基于所述训练数据、所述目标结构因子、所述动作策略、以及所述动作策略的奖励信息，对所述强化学习模型进行训练，以通过训练后的强化学习模型对多个智能体进行动作策略预测。

在一些实施例中，确定模块可以包括分布确定子模块和目标确定子模块，其中，

分布确定子模块，用于确定训练数据所属目标智能体交互环境的隐变量概率分布，所述隐变量概率分布包括多个候选隐变量的候选变量发生概率；

目标确定子模块，用于根据每一候选隐变量的候选变量发生概率，从多个候选隐变量中确定所述训练数据的至少一个目标隐变量、以及所述目标隐变量的目标变量发生概率。

在一些实施例中，所述强化学习模型包括结构提取模型，第一输入模块可以包括输入子模块和设置子模块，其中，

输入子模块，用于将所述训练数据和所述目标隐变量输入结构提取模型，得到所述训练数据所属目标智能体交互环境的结构因子；

设置子模块，用于根据所述目标隐变量的目标变量发生概率，设置所述结构因子的因子发生概率，以得到多个智能体交互环境的结构因子概率分布。

在一些实施例中，所述强化学习模型还包括策略预测模型，所述策略预测模型包括第一子模型和第二子模型，第二输入模块可以包括策略子模块和奖励子模块，其中，

策略子模块，用于将所述训练数据及其对应的目标结构因子输入第一子模型，得到所述训练数据对应的动作策略；

奖励子模块，用于将所述动作策略、所述训练数据及其对应的目标结构因子输入第二子模型，得到所述动作策略的奖励信息。

在一些实施例中，训练模块可以包括结构训练子模块、策略训练子模块和预测子模块，其中，

结构训练子模块，用于通过所述训练数据、所述目标结构因子以及所述动作策略，对结构提取模型进行训练，得到训练后的结构提取模型；

策略训练子模块，用于通过所述训练数据、所述动作策略、以及所述动作策略的奖励信息，对策略预测模型进行训练，得到训练后的策略预测模型；

预测子模块，用于基于训练后的结构提取模型和策略预测模型，对多个智能体进行动作策略预测。

在一些实施例中，结构训练子模块包括确定单元、调整单元以及训练单元，其中，

确定单元，用于确定所述第一子模型为目标模型；

调整单元，用于根据所述训练数据、所述目标结构因子以及所述动作策略，对所述结构提取模型的模型参数进行调整，得到调整后结构提取模型；

训练单元，用于根据多个智能体交互环境的更新后训练数据和所述目标模型，对所述调整后结构提取模型进行训练，得到训练后的结构提取模型。

在一些实施例中，训练单元可以具体用于：

将多个智能体交互环境的更新后训练数据输入所述调整后结构提取模型，以得到多个智能体网络的更新后结构因子概率分布；

根据所述更新后训练数据、所述更新后结构因子概率分布、以及所述目标模型，计算所述调整后结构提取模型的损失信息；

通过所述损失信息，对所述调整后结构提取模型进行训练，得到训练后的结构提取模型。

在一些实施例中，多智能体策略预测装置还包括：

条件模块，用于当调整后结构提取模型的训练次数满足设定条件时，获取当前训练过程的调整后结构提取模型对应的调整后第一子网络；

更新模块，用于更新所述目标模型为所述调整后第一子网络。

在一些实施例中，多智能体策略预测装置还包括：

构建模块，用于通过环境网络构建多个智能体交互环境的初始隐变量分布；

环境预测模块，用于将环境样本数据输入所述环境网络，得到环境样本数据的环境预测值；

分布确定模块，用于根据所述环境预测值及其对应的环境样本数据标签，对所述环境网络进行训练，以通过训练后的环境网络确定多个智能体交互环境的隐变量分布。

相应的，本申请实施例还提供了一种存储介质，存储介质存储有计算机程序，计算机程序适于处理器进行加载，以执行本申请实施例提供的任一种多智能体策略预测方法。

相应的，本申请实施例还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行计算机程序时实现本申请实施例提供的任一种多智能体策略预测方法。

本申请可以获取多个智能体交互环境的训练数据，以及获取多个智能体交互环境的隐变量概率分布；根据多个智能体交互环境的隐变量概率分布，确定训练数据的至少一个目标隐变量，目标隐变量包括对训练数据所属智能体交互环境中智能体的动作策略产生影响的变量；将训练数据和目标隐变量输入强化学习模型，以得到多个智能体交互环境的结构因子概率分布；将训练数据及其对应的目标结构因子输入强化学习模型，得到训练数据对应的动作策略、以及动作策略的奖励信息，目标结构因子基于多个智能体交互环境的结构因子概率分布确定，目标结构因子包括训练数据所属智能体交互环境的特征，动作策略包括训练数据在其所属智能体交互环境中智能体的动作策略；基于训练数据、目标结构因子、动作策略、以及动作策略的奖励信息，对强化学习模型进行训练，以通过训练后的强化学习模型对多个智能体进行动作策略预测。

本申请通过隐变量概率分布描述特定智能体交互环境存在特定数据时可能存在的不同解决方案，通过将多个智能体交互环境的训练数据及其对应的目标隐变量输入强化学习模型，得到多个智能体交互环境的泛化表示，即多个智能体交互环境的结构因子概率分布，将训练数据以及目标结构因子输入强化学习模型得到智能体交互环境中智能体的动作策略，并对强化学习模型进行训练，训练后的强化学习模型在实际应用时，可以对来自不同智能体交互环境的智能体进行动作策略预测，具有更广的应用范围。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的多智能体策略预测系统的场景示意图；

图2是本申请实施例提供的多智能体策略预测方法的流程示意图；

图3是本申请实施例提供的多智能体策略预测方法的另一流程示意图；

图4是本申请实施例提供的多智能体策略预测方法的模型示例图；

图5是本申请实施例提供的多智能体策略预测装置的结构示意图；

图6是本申请实施例提供的多智能体策略预测装置的另一结构示意图；

图7是本申请实施例提供的计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，本申请所描述的实施例仅仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

本申请实施例中的强化学习模型涉及人工智能的机器学习领域，比如，训练强化学习模型、通过训练后的强化学习模型进行动作策略预测等，具体将通过下述实施例进行详细说明。

本申请实施例提供一种多智能体策略预测方法及装置。具体地，本申请实施例可以集成在多智能体策略预测系统中。

多智能体策略预测系统可以集成在计算机设备中，该计算机设备可以包括终端或服务器等，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

参见图1，多智能体策略预测系统可以集成在终端或服务器等计算机设备中，其中，服务器可以获取多个智能体交互环境的训练数据，以及获取多个智能体交互环境的隐变量概率分布，目标隐变量包括对训练数据所属智能体交互环境中智能体的动作策略产生影响的变量；根据多个智能体交互环境的隐变量概率分布，确定训练数据的至少一个目标隐变量；将训练数据和目标隐变量输入强化学习模型，以得到多个智能体交互环境的结构因子概率分布；将训练数据及其对应的目标结构因子输入强化学习模型，得到训练数据对应的动作策略、以及动作策略的奖励信息；基于训练数据、目标结构因子、动作策略、以及动作策略的奖励信息，对强化学习模型进行训练，以使终端通过训练后的强化学习模型对多个智能体进行动作策略预测。

需要说明的是，图1所示的多智能体策略预测系统的场景示意图仅仅是一个示例，本申请实施例描述的多智能体策略预测系统以及场景是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域普通技术人员可知，随着多智能体策略预测装置的演变和新业务场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

以下分别进行详细说明。在本实施例中，将对多智能体策略预测方法进行详细描述，该多智能体策略预测方法可以集成在计算机设备上，如图2所示，图2是本申请实施例提供的多智能体策略预测方法的流程示意图。该多智能体策略预测方法可以包括：

101、获取多个智能体交互环境的训练数据，以及获取多个智能体交互环境的隐变量概率分布。

其中，智能体交互环境可以包括智能体所处的环境，智能体交互环境可以包括一定的运行规则和物理特性，比如，智能体交互环境可以包括边界、障碍物等，智能体交互环境内的智能体需要进行对抗、合作等，基于智能体交互环境内运行规则和物理特性的差异，智能体交互环境可以有多种表现形态，比如，智能体交互环境可以为棋局、运动场地、追捕现场等，智能体交互环境可以是虚拟环境，也可以是真实环境，比如，通过计算机设置的虚拟棋盘，又比如，包含大量货品的物流仓库，等等。

对应地，智能体可以包括由计算机设备构建并依托其提供动作决策的虚拟物体，智能体是现代科技的产物，依托于人工智能技术的发展，智能体可以对其所处的智能体交互环境进行感知，并根据智能体交互环境的改变进行决策，决定是否调整自身以及如何调整自身等。

其中，训练数据可以包括对智能体及其所属的智能体交互环境的描述数据，根据智能体交互环境以及智能体交互环境中智能体的差异，训练数据可以有所差异，训练数据的获取方式也相应地不尽相同，比如，对于一包含多个智能体的智能体交互环境来说，某特定智能体的训练数据可以包括该特定智能体的位置信息、速度信息等，该智能体交互环境中障碍物的位置信息、目标物的位置信息、其他智能体的位置信息等。

其中，隐变量概率分布可以包括多个隐变量以及每一隐变量的变量发生概率，隐变量可以为与智能体交互环境相关，对智能体交互环境中智能体的动作策略产生影响但无法被直接观察或检测到的变量。

每一智能体交互环境可以包括多个训练数据，获取到多个智能体交互环境的训练数据后，可以根据训练需求，从中确定用于当前训练批次的当前训练数据，基于当前训练数据完成对强化学习模型的一次训练后，可以从多个智能体交互环境的训练数据中，抽取用于再一次训练的更新训练数据，循环模型训练和数据抽取的过程，直至完成对强化学习模型的训练。

获取多个智能体交互环境的隐变量分布可以包括多种方式，比如，可以向服务器发送获取请求，并接收服务器基于获取请求返回的多个智能体的隐变量分布，又比如，可以根据智能体交互环境的参数生成该智能体交互环境的隐变量分布，等。

比如，可以获取多个智能体交互环境的训练数据M，以及获取多个智能体交互环境的隐变量概率分布N。

在一些实施例中，多智能体策略预测方法还可以包括步骤：

通过环境网络构建多个智能体交互环境的初始隐变量分布；将环境样本数据输入环境网络，得到环境样本数据的环境预测值；根据环境预测值及其对应的环境样本数据标签，对环境网络进行训练，以通过训练后的环境网络确定多个智能体交互环境的隐变量分布。

隐变量概率概率分布可以通过神经网络模型确定，比如，通过环境网络确定智能体交互环境的隐变量概率分布，其中，环境样本数据可以用于对环境网络进行训练，环境样本数据可以为特定智能体及其所处特定智能体交互环境的信息，环境样本数据对应环境样本数据标签，环境样本数据标签可以为环境样本数据对饮的智能体交互环境。

环境网络在进行训练前，可以构建多个智能体交互环境的初始隐变量分布，然后，根据环境样本数据及其对应的目标初始隐变量，通过环境网络得到该环境样本数据的环境预测值，环境预测值可以为对环境样本数据所处的智能体交互环境的预测，根据环境预测值和环境样本数据标签，确定环境网络的损失，并根据该损失，对环境网络进行训练，以得到训练后的环境网络，并通过训练后的环境网络确定多个智能体交互环境的隐变量分布。

其中，损失的计算可以通过损失函数进行，如，softmax函数(一种损失函数)，训练可以通过优化算法进行，如随机梯度下降(SGD，Stochastic Gradient Descent)、自适应梯度(AdaGrad，Adaptive Gradient)等。

具体地，为了便于网络训练，环境网络可以包括构建子网络和预测子网络，其中，构建子网络可以构建智能体交互环境的隐变量概率分布，预测子网络可以基于环境样本数据对其所处的智能体交互环境进行预测，在训练过程中，可以基于预测子网络输出的环境预测值对构建子网络和预测子网络(即环境网络)的模型参数进行调整，以优化构建子网络，训练完成后，即可通过训练后的构建子网络进行智能体交互环境的隐变量概率分布的优化。

其中，预测子网络可以基于智能体交互环境与结构因子的条件互信息量构

建，

其中，g为结构因子，t为智能体交互环境。

比如，可以通过环境网络H构建多个智能体交互环境的初始隐变量分布1；将环境样本数据1输入环境网络H，得到环境样本数据1的环境预测值1；根据环境预测值1及其对应的环境样本数据标签1，对环境网络H进行训练，以通过训练后的环境网络确定多个智能体交互环境的隐变量分布。

102、根据多个智能体交互环境的隐变量概率分布，确定训练数据的至少一个目标隐变量，目标隐变量包括对训练数据所属智能体交互环境中智能体的动作策略产生影响的变量。

目标隐变量可以为与训练数据对应的隐变量，本申请中，为了提升训练效果，增多样本量，训练数据对应的目标隐变量可以为一个，也可以为多个。确定目标隐变量的方式可以包括多种，比如，可以将训练数据所属智能体交互环境的隐变量概率分布中的所有隐变量，确定为该训练数据的目标隐变量，等。

比如，可以根据多个智能体交互环境的隐变量概率分布N，确定训练数据M的至少一个目标隐变量P。

在一些实施例中，步骤“根据多个智能体交互环境的隐变量概率分布，确定训练数据的至少一个目标隐变量”可以包括：

确定训练数据所属目标智能体交互环境的隐变量概率分布，隐变量概率分布包括多个候选隐变量的候选变量发生概率；根据每一候选隐变量的候选变量发生概率，从多个候选隐变量中确定训练数据的至少一个目标隐变量、以及目标隐变量的目标变量发生概率。

具体地，隐变量概率分布可以包括多个隐变量以及每一隐变量对应的变量发生概率，确定训练数据的目标隐变量可以通过随机抽样的方式进行，比如，可以在确定训练数据所属的目标智能体交互环境的隐变量概率分布后，根据该隐变量概率分布中每一候选隐变量的候选变量发生概率，确定该训练数据的至少一个目标隐变量，以及每一目标隐变量的目标变量发生概率。

可以通过随机抽样的方式确定训练数据的目标隐变量，每一候选隐变量的候选变量发生概率作为每一候选隐变量的抽样权重；也可以根据候选变量发生概率对候选隐变量进行排序，并根据排序结果确定训练数据的至少一个目标隐变量，等等。

比如，可以确定训练数据M所属目标智能体交互环境的隐变量概率分布N1，隐变量概率分布N1包括多个候选隐变量的候选变量发生概率；根据每一候选隐变量的候选变量发生概率，从多个候选隐变量中确定训练数据M的目标隐变量P、以及目标隐变量P的目标变量发生概率1。

103、将训练数据和目标隐变量输入强化学习模型，以得到多个智能体交互环境的结构因子概率分布。

其中，强化学习模型可以为进行动作预测的神经网络模型，本申请主要包括对该强化学习模型进行训练，以通过训练后的强化学习模型，对多智能体领域中，不同智能体交互环境中的智能体进行动作策略预测。强化学习模型在进行训练前需要构建模型层(如卷积层、全连接层等)，并初始化模型参数，通过训练对模型参数进行调整，使得训练后的强化学习模型达到较佳的动作策略预测效果。

智能体交互环境为多个，单个智能体交互环境的训练数据可以为多个，单个训练数据的目标隐变量可以为多个，以一个训练数据和一个目标隐变量为一组，将其输入强化学习模型，以得到多个智能体交互环境的结构因子概率分布。

其中，结构因子概率分布可以包括多个结构因子以及每一结构因子的因子发生概率，结构因子可以包括强化学习模型的输出结果，也可以基于强化学习模型的输出结果确定，比如，对智能体交互环境的多个输出结果进行加权计算，等等。

比如，可以将训练数据M和目标隐变量P输入强化学习模型Q，以得到多个智能体交互环境的结构因子概率分布J。

在一些实施例中，强化学习模型包括结构提取模型，步骤“将训练数据和目标隐变量输入强化学习模型，以得到多个智能体交互环境的结构因子概率分布”可以包括：

将训练数据和目标隐变量输入结构提取模型，得到训练数据所属目标智能体交互环境的结构因子；根据目标隐变量的目标变量发生概率，设置结构因子的因子发生概率，以得到多个智能体交互环境的结构因子概率分布。

其中，结构提取模型可以为强化学习模型的一个子模型，通过结构提取模型，可以确定得到智能体交互环境的结构因子以及结构因子的因子发生概率。

具体地，输入一个训练数据和其对应的一个目标隐变量后，强化学习模型可以输出一个结构因子，接着，可以将输入模型的目标隐变量的目标变量发生概率，设置为该结构因子的因子发生概率；也可以基于目标隐变量的目标变量发生概率进行计算，得到该结构因子的因子发生概率。

在得到智能体交互环境的多个结构因子及其因子发生概率后，可以基于此确定该智能体交互环境的结构因子概率分布，对多个智能体交互环境的训练数据进行上述操作后，可以得到多个智能体交互环境的结构因子概率分布。

比如，可以将训练数据M和目标隐变量P输入结构提取模型1，得到训练数据M所属目标智能体交互环境1的结构因子1；根据目标隐变量P的目标变量发生概率p，设置结构因子的因子发生概率1，以得到多个智能体交互环境的结构因子概率分布。

104、将训练数据及其对应的目标结构因子输入强化学习模型，得到训练数据对应的动作策略、以及动作策略的奖励信息，目标结构因子基于多个智能体交互环境的结构因子概率分布确定，目标结构因子包括训练数据所属智能体交互环境的特征，动作策略包括训练数据在其所属智能体交互环境中智能体的动作策略。

其中，动作策略可以包括智能体交互环境中智能体即将进行的动作，动作策略的奖励信息可以包括对该动作策略的质量的评价信息，奖励信息越高，代表动作策略质量越高。

其中，目标结构因子基于多个智能体交互环境的结构因子概率分布确定，具体，确定的方式可以包括多种，比如，可以基于结构因子概率分布中多个结果因子的因子发生概率进行随机抽样，以确定目标结构因子；可以根据结果因子的因子发生概率对结构因子进行排序，基于排序结果确定目标结构因子，等等。

比如，可以将训练数据M及其对应的目标结构因子Y输入强化学习模型，得到训练数据M对应的动作策略1、以及动作策略的奖励信息1，目标结构因子Y基于多个智能体交互环境的结构因子概率分布确定。

在一些实施例中，强化学习模型还包括策略预测模型，策略预测模型包括第一子模型和第二子模型，步骤“将训练数据及其对应的目标结构因子输入强化学习模型，得到训练数据对应的动作策略、以及动作策略的奖励信息”可以包括：

将训练数据及其对应的目标结构因子输入第一子模型，得到训练数据对应的动作策略；将动作策略、训练数据及其对应的目标结构因子输入第二子模型，得到动作策略的奖励信息。

通过强化学习模型得到训练数据对应的动作策略、以及动作策略的奖励信息的过程可以通过强化学习模型包含的策略预测模型确定，策略预测模型可以包括第一子模型和第二子模型，第一子模型可以根据训练数据及其对应的目标结构因子预测动作策略，第二子模型可以根据训练数据及其对应的目标结构因子、以及第一子模型输出的动作策略，对动作策略进行打分，得到动作策略的奖励信息。

比如，将训练数据M及其对应的目标结构因子Y输入策略模型(第一子模型)，得到训练数据对应的动作策略1；将动作策略1、训练数据M及其对应的目标结构因子Y输入价值模型(第二子模型)，得到动作策略1的奖励信息1。

105、基于训练数据、目标结构因子、动作策略、以及动作策略的奖励信息，对强化学习模型进行训练，以通过训练后的强化学习模型对多个智能体进行动作策略预测。

比如，基于训练数据M、目标结构因子Y、动作策略1、以及动作策略的奖励信息1，对强化学习模型进行一次训练，再根据新的训练数据继续对强化学习模型进行训练，直至训练完成，得到训练后的强化学习模型。

然后，可以将不同智能体的观测或状态(即智能体以及其所属智能体交互环境的状态信息)输入训练后的强化学习模型，得到智能体的动作策略预测。

在一些实施例中，步骤“基于训练数据、目标结构因子、动作策略、以及动作策略的奖励信息，对强化学习模型进行训练，以通过训练后的强化学习模型对多个智能体进行动作策略预测”可以包括：

通过训练数据、目标结构因子以及动作策略，对结构提取模型进行训练，得到训练后的结构提取模型；通过训练数据、动作策略、以及动作策略的奖励信息，对策略预测模型进行训练，得到训练后的策略预测模型；基于训练后的结构提取模型和策略预测模型，对多个智能体进行动作策略预测。

具体地，训练可以针对强化学习模型包含的结构提取模型和策略预测模型，由于结构提取模型主要是根据训练数据及其对应的目标隐变量得到结构因子，则对结构提取模型进行训练需要基于训练数据、目标结构因子以及动作策略进行，对策略预测模型的训练则需要基于训练数据、动作策略以及动作策略的奖励信息进行。

策略预测模型训练过程中，第一子模型可以基于策略梯度算法进行，第二子网络可以基于时间差分(TD，temporal-difference)方法、SARSA算法(一种强化学习算法)、Q-Learning算法(一种强化学习算法)等。

在一些实施例中，步骤“通过训练数据、目标结构因子以及动作策略，对结构提取模型进行训练”可以包括：

确定第一子模型为目标模型；根据训练数据、目标结构因子以及动作策略，对结构提取模型的模型参数进行调整，得到调整后结构提取模型；根据多个智能体交互环境的更新后训练数据和目标模型，对调整后结构提取模型进行训练，得到训练后的结构提取模型。

其中，目标模型可以用于对结构提取模型进行训练，目标模型可以为当前训练过程的第一子模型，也可以为预先确定的，能够输出动作策略的模型或函数等。

结构提取模型可以进行多次训练，在第一次训练时，第一子模型输出的动作策略即为目标模型输出的动作策略，则，可以根据训练数据、目标结构因子以及动作策略计算结构提取模型的损失，并基于损失对结构提取模型的参数进行更调整，得到调整后结构提取模型，然后，可以通过新的训练数据(更新后训练数据)以及目标模型继续对调整后结构提取模型进行训练，直至得到训练后的结构提取模型。

结构提取模型在进行模型参数调整时，可以通过奖励函数进行，奖励函数

可以基于结构因子和动作策略的条件互信息量得到，具体地，奖励函数可以为：

其中，π_θ-为目标策略网络，N为结构因子的数量。

比如，确定第一子模型1为目标模型B；根据训练数据M、目标结构因子Y、动作策略1，对结构提取模型的模型参数进行调整，得到调整后结构提取模型1，根据多个智能体交互环境的更新后训练数据和目标模型B，对调整后结构提取模型1进行训练，得到训练后的结构提取模型。

在一些实施例中，步骤“根据多个智能体交互环境的更新后训练数据和目标模型，对调整后结构提取模型进行训练，得到训练后的结构提取模型”可以包括：

将多个智能体交互环境的更新后训练数据输入调整后结构提取模型，以得到多个智能体网络的更新后结构因子概率分布；根据更新后训练数据、更新后结构因子概率分布、以及目标模型，计算调整后结构提取模型的损失信息；通过损失信息，对调整后结构提取模型进行训练，得到训练后的结构提取模型。

具体地，可以确定更新后训练数据的目标隐变量，并将更新后训练数据以及目标隐变量输入调整后结构提取模型，以得到更新后结构因子概率分布，并根据此更新后结构因子概率分布确定更新后训练数据的目标结构因子，接着通过目标模型、更新后训练数据、以及目标结构因子计算更新后结构提取模型的损失信息，通过该损失信息对调整后结构提取模型进行训练，经过多次训练后，得到训练后的结构提取模型。

在一些实施例中，多智能体策略预测方法还可以包括步骤：

当调整后结构提取模型的训练次数满足设定条件时，获取当前训练过程的调整后结构提取模型对应的调整后第一子网络；更新目标模型为调整后第一子网络。

在对强化学习模型进行训练的过程中，依次对结构提取模型、第一子模型和第二子模型进行数据模型参数调整，训练结构提取模型所需的目标模型在训练过程中可以进行更新，更新的条件可以根据实际情况进行设置，

比如，基于使用目标模型对结构提取模型进行参数调整的次数，即结构提取模型的训练次数，作为更新目标模型的条件。其中，设定条件可以包括多种，比如，设定条件可以是训练次数为20的倍数，即每训练20次更新一次目标模型。

此外，更新目标模型也可以根据结构提取模型的模型参数进行，比如，模型参数小于设定阈值时，即更新一次目标模型。

确定需要对目标模型进行更新后，即可确定当前训练过程中的调整后第一模型，结构提取模型与第一子模型的训练次数相同，因此获取结构提取模型的当前训练过程对应的调整后第一子模型，将目标模型更新为调整后第一子模型。

本申请通过隐变量概率分布描述特定智能体交互环境存在特定数据时可能存在的不同解决方案，通过将多个智能体交互环境的训练数据及其对应的目标隐变量输入强化学习模型，得到多个智能体交互环境的泛化表示，即多个智能体交互环境的结构因子概率分布，因此，训练后的强化学习模型在实际应用时，可以对来自不同智能体交互环境的智能体进行动作策略预测。

根据上述实施例所描述的方法，以下将举例作进一步详细说明。

本申请将以集成在服务器的多智能体策略预测系统为例，对多智能体策略预测方法进行介绍，如图3所示，图3是本申请实施例提供的多智能体策略预测方法的流程示意图。该多智能体策略预测方法可以包括：

201、计算机设备通过训练后的环境网络获取多个智能体交互环境的隐变量概率分布，隐变量概率分布包括多个隐变量的变量发生概率。

参见图4，通过环境网络

可确定智能体交互环境的隐变量概率分布，比如，智能体交互环境1的隐变量概率分布1，智能体交互环境2的隐变量概率分布2。

202、计算机设备根据多个智能体交互环境的隐变量概率分布，确定多个智能体交互环境的训练数据的至少一个目标隐变量。

比如，训练数据1属于智能体交互环境1，智能体交互环境1的隐变量概率分布1包括候选隐变量1的候选变量发生概率1、候选隐变量2的候选变量发生概率2、以及候选隐变量3的候选变量发生概率3，通过每一候选隐变量的候选变量发生概率进行随机抽样，确定训练数据1对应的目标隐变量为候选隐变量1和候选隐变量2(如图4中的z₁和z₂)。

203、计算机设备将训练数据和目标隐变量输入结构提取模型，得到训练数据所属目标智能体交互环境的结构因子，并根据目标隐变量的目标变量发生概率，设置结构因子的因子发生概率，以得到多个智能体交互环境的结构因子概率分布。

比如，图4中的relational structure extractor(即结构提取模型)可以通过输入的训练数据1(如图中的s₁)以及其对应的目标隐变量z₁和z₂，得到结构因子g₁和g₂，并确定结构因子g₁的因子发生概率为目标隐变量z₁的变量发生概率1，结构因子g₂的因子发生概率为目标隐变量z₂的变量发生概率2。

将多个智能体交互环境的所有训练数据(如图4中的o₁、o₂、o₃、o₄、……o_n)通过结构提取模型，得到多个智能体交互环境的结构因子概率分布。

204、计算机设备根据结构因子概率分布，确定训练数据对应的目标结构因子。

比如，根据结构因子概率分布中每一结构因子的因子发生概率进行随机抽样，确定训练数据1对应的目标结构因子1。

205、计算机设备将训练数据和目标结构因子输入策略预测模型，得到训练数据对应的动作策略、以及动作策略的奖励信息。

比如，将训练数据1及其对应的目标结构因子1输入策略网络和价值网络(如图4中的actor和critic)，得到训练数据1对应的动作策略以及该动作策略的奖励值。

206、计算机设备通过训练数据、目标结构因子以及动作策略，对结构提取模型进行训练，得到训练后的结构提取模型。

比如，确定当前训练过程的策略网络为目标网络，将多组训练数据和目标结构因子输入目标网络，基于输出结果计算结构提取网络的损失值，并基于损失值对结构提取网络进行训练，最终得到训练后的结构提取网络。

207、计算机设备通过训练数据、动作策略、以及动作策略的奖励信息，对策略预测模型进行训练，得到训练后的策略预测模型。

比如，可以对策略预测模型中每一智能体的策略模型分别训练(decentralized)，对价值模型集合训练(centralized)。

208、计算机设备基于训练后的结构提取模型和策略预测模型，对多个智能体进行动作策略预测。

为便于更好的实施本申请实施例提供的多智能体策略预测方法，本申请实施例还提供一种基于上述多智能体策略预测方法的装置。其中名词的含义与上述多智能体策略预测方法中相同，具体实现细节可以参考方法实施例中的说明。

如图5所示，图5本申请一实施例提供的多智能体策略预测装置的结构示意图，其中该多智能体策略预测装置可以包括获取模块301、确定模块302、第一输入模块303、第二输入模块304、以及训练模块305，其中，

获取模块301，用于获取多个智能体交互环境的训练数据，以及获取多个智能体交互环境的隐变量概率分布；

确定模块302，用于根据多个智能体交互环境的隐变量概率分布，确定训练数据的至少一个目标隐变量，目标隐变量包括对训练数据所属智能体交互环境中智能体的动作策略产生影响的变量；

第一输入模块303，用于将训练数据和目标隐变量输入强化学习模型，以得到多个智能体交互环境的结构因子概率分布；

第二输入模块304，用于将训练数据及其对应的目标结构因子输入强化学习模型，得到训练数据对应的动作策略、以及动作策略的奖励信息，目标结构因子基于多个智能体交互环境的结构因子概率分布确定，目标结构因子包括训练数据所属智能体交互环境的特征，动作策略包括训练数据在其所属智能体交互环境中智能体的动作策略；

训练模块305，用于基于训练数据、目标结构因子、动作策略、以及动作策略的奖励信息，对强化学习模型进行训练，以通过训练后的强化学习模型对多个智能体进行动作策略预测。

分布确定子模块，用于确定训练数据所属目标智能体交互环境的隐变量概率分布，隐变量概率分布包括多个候选隐变量的候选变量发生概率；

目标确定子模块，用于根据每一候选隐变量的候选变量发生概率，从多个候选隐变量中确定训练数据的至少一个目标隐变量、以及目标隐变量的目标变量发生概率。

在一些实施例中，参见图6，强化学习模型包括结构提取模型，第一输入模块303可以包括输入子模块3031和设置子模块3032，其中，

输入子模块3031，用于将训练数据和目标隐变量输入结构提取模型，得到训练数据所属目标智能体交互环境的结构因子；

设置子模块3032，用于根据目标隐变量的目标变量发生概率，设置结构因子的因子发生概率，以得到多个智能体交互环境的结构因子概率分布。

在一些实施例中，强化学习模型还包括策略预测模型，策略预测模型包括第一子模型和第二子模型，第二输入模块可以包括策略子模块和奖励子模块，其中，

策略子模块，用于将训练数据及其对应的目标结构因子输入第一子模型，得到训练数据对应的动作策略；

奖励子模块，用于将动作策略、训练数据及其对应的目标结构因子输入第二子模型，得到动作策略的奖励信息。

结构训练子模块，用于通过训练数据、目标结构因子以及动作策略，对结构提取模型进行训练，得到训练后的结构提取模型；

策略训练子模块，用于通过训练数据、动作策略、以及动作策略的奖励信息，对策略预测模型进行训练，得到训练后的策略预测模型；

确定单元，用于确定第一子模型为目标模型；

调整单元，用于根据训练数据、目标结构因子以及动作策略，对结构提取模型的模型参数进行调整，得到调整后结构提取模型；

训练单元，用于根据多个智能体交互环境的更新后训练数据和目标模型，对调整后结构提取模型进行训练，得到训练后的结构提取模型。

在一些实施例中，训练单元可以具体用于：

将多个智能体交互环境的更新后训练数据输入调整后结构提取模型，以得到多个智能体网络的更新后结构因子概率分布；

根据更新后训练数据、更新后结构因子概率分布、以及目标模型，计算调整后结构提取模型的损失信息；

通过损失信息，对调整后结构提取模型进行训练，得到训练后的结构提取模型。

在一些实施例中，多智能体策略预测装置还包括：

更新模块，用于更新目标模型为调整后第一子网络。

在一些实施例中，多智能体策略预测装置还包括：

环境预测模块，用于将环境样本数据输入环境网络，得到环境样本数据的环境预测值；

分布确定模块，用于根据环境预测值及其对应的环境样本数据标签，对环境网络进行训练，以通过训练后的环境网络确定多个智能体交互环境的隐变量分布。

本申请中，获取模块301获取多个智能体交互环境的训练数据，以及获取多个智能体交互环境的隐变量概率分布，确定模块302根据多个智能体交互环境的隐变量概率分布，确定训练数据的至少一个目标隐变量，目标隐变量包括对训练数据所属智能体交互环境中智能体的动作策略产生影响的变量，第一输入模块303将训练数据和目标隐变量输入强化学习模型，以得到多个智能体交互环境的结构因子概率分布，第二输入模块304将训练数据及其对应的目标结构因子输入强化学习模型，得到训练数据对应的动作策略、以及动作策略的奖励信息，目标结构因子基于多个智能体交互环境的结构因子概率分布确定，目标结构因子包括训练数据所属智能体交互环境的特征，动作策略包括训练数据在其所属智能体交互环境中智能体的动作策略，训练模块305基于训练数据、目标结构因子、动作策略、以及动作策略的奖励信息，对强化学习模型进行训练，以通过训练后的强化学习模型对多个智能体进行动作策略预测。

此外，本申请实施例还提供一种计算机设备，该计算机设备可以为终端或者服务器，如图7所示，其示出了本申请实施例所涉及的计算机设备的结构示意图，具体来讲：

该计算机设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解，图7中示出的计算机设备结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该计算机设备的控制中心，利用各种接口和线路连接整个计算机设备的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行计算机设备的各种功能和处理数据，从而对计算机设备进行整体监控。可选的，处理器401可包括一个或多个处理核心；优选的，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户页面和应用程序等，调制解调处理器主要处理无线通讯。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据计算机设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

计算机设备还包括给各个部件供电的电源403，优选的，电源403可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该计算机设备还可包括输入单元404，该输入单元404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，计算机设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，计算机设备中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能，如下：

获取多个智能体交互环境的训练数据，以及获取多个智能体交互环境的隐变量概率分布；根据多个智能体交互环境的隐变量概率分布，确定训练数据的至少一个目标隐变量，目标隐变量包括对训练数据所属智能体交互环境中智能体的动作策略产生影响的变量；将训练数据和目标隐变量输入强化学习模型，以得到多个智能体交互环境的结构因子概率分布；将训练数据及其对应的目标结构因子输入强化学习模型，得到训练数据对应的动作策略、以及动作策略的奖励信息，目标结构因子基于多个智能体交互环境的结构因子概率分布确定，目标结构因子包括训练数据所属智能体交互环境的特征，动作策略包括训练数据在其所属智能体交互环境中智能体的动作策略；基于训练数据、目标结构因子、动作策略、以及动作策略的奖励信息，对强化学习模型进行训练，以通过训练后的强化学习模型对多个智能体进行动作策略预测。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中各种可选实现方式中提供的方法。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过计算机程序来完成，或通过计算机程序控制相关的硬件来完成，该计算机程序可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例还提供一种存储介质，其中存储有计算机程序，该计算机程序能够被处理器进行加载，以执行本申请实施例所提供的任一种多智能体策略预测方法中的步骤。例如，该计算机程序可以执行如下步骤：

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的计算机程序，可以执行本申请实施例所提供的任一种多智能体策略预测方法中的步骤，因此，可以实现本申请实施例所提供的任一种多智能体策略预测方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种多智能体策略预测方法及装置进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种多智能体策略预测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述多个智能体交互环境的隐变量概率分布，确定训练数据的至少一个目标隐变量，包括：

确定训练数据所属目标智能体交互环境的隐变量概率分布，所述隐变量概率分布包括多个候选隐变量的候选变量发生概率；

根据每一候选隐变量的候选变量发生概率，从多个候选隐变量中确定所述训练数据的至少一个目标隐变量、以及所述目标隐变量的目标变量发生概率。

3.根据权利要求2所述的方法，其特征在于，所述强化学习模型包括结构提取模型，

所述将所述训练数据和所述目标隐变量输入强化学习模型，以得到多个智能体交互环境的结构因子概率分布，包括：

将所述训练数据和所述目标隐变量输入结构提取模型，得到所述训练数据所属目标智能体交互环境的结构因子；

根据所述目标隐变量的目标变量发生概率，设置所述结构因子的因子发生概率，以得到多个智能体交互环境的结构因子概率分布。

4.根据权利要求3所述的方法，其特征在于，所述强化学习模型还包括策略预测模型，所述策略预测模型包括第一子模型和第二子模型，

所述将所述训练数据及其对应的目标结构因子输入所述强化学习模型，得到所述训练数据对应的动作策略、以及所述动作策略的奖励信息，包括：

将所述训练数据及其对应的目标结构因子输入第一子模型，得到所述训练数据对应的动作策略；

将所述动作策略、所述训练数据及其对应的目标结构因子输入第二子模型，得到所述动作策略的奖励信息。

5.根据权利要求4所述的方法，其特征在于，所述基于所述训练数据、所述目标结构因子、所述动作策略、以及所述动作策略的奖励信息，对所述强化学习模型进行训练，以通过训练后的强化学习模型对多个智能体进行动作策略预测，包括：

通过所述训练数据、所述目标结构因子以及所述动作策略，对结构提取模型进行训练，得到训练后的结构提取模型；

通过所述训练数据、所述动作策略、以及所述动作策略的奖励信息，对策略预测模型进行训练，得到训练后的策略预测模型；

基于训练后的结构提取模型和策略预测模型，对多个智能体进行动作策略预测。

6.根据权利要求5所述的方法，其特征在于，所述通过所述训练数据、所述目标结构因子以及所述动作策略，对结构提取模型进行训练，包括：

确定所述第一子模型为目标模型；

根据所述训练数据、所述目标结构因子以及所述动作策略，对所述结构提取模型的模型参数进行调整，得到调整后结构提取模型；

根据多个智能体交互环境的更新后训练数据和所述目标模型，对所述调整后结构提取模型进行训练，得到训练后的结构提取模型。

7.根据权利要求6所述的方法，其特征在于，所述根据多个智能体交互环境的更新后训练数据和所述目标模型，对所述调整后结构提取模型进行训练，得到训练后的结构提取模型，包括：

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

当调整后结构提取模型的训练次数满足设定条件时，获取当前训练过程的调整后结构提取模型对应的调整后第一子网络；

更新所述目标模型为所述调整后第一子网络。

9.根据权利要求1至8任一项所述的方法，其特征在于，所述方法还包括：

通过环境网络构建多个智能体交互环境的初始隐变量分布；

将环境样本数据输入所述环境网络，得到环境样本数据的环境预测值；

根据所述环境预测值及其对应的环境样本数据标签，对所述环境网络进行训练，以通过训练后的环境网络确定多个智能体交互环境的隐变量分布。

10.一种多智能体策略预测装置，其特征在于，包括：