CN114282640B

CN114282640B - 多样性策略的生成方法、装置、介质和计算设备

Info

Publication number: CN114282640B
Application number: CN202111668462.7A
Authority: CN
Inventors: 请求不公布姓名
Original assignee: Beijing Real AI Technology Co Ltd
Current assignee: Beijing Real AI Technology Co Ltd
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2024-02-06
Anticipated expiration: 2041-12-31
Also published as: CN114282640A

Abstract

本申请的实施例涉及人工智能技术领域，一些实施例提供了一种多样性策略的生成方法、装置、介质和计算设备。该方法包括：获取当前状态数据、指示参数以及环境奖励；所述当前状态数据中包括但不限于多个终端设备的当前观测状态数据；将所述多个终端设备的当前观测状态数据和所述指示参数输入至神经网络模型，得到虚拟奖励；根据所述虚拟奖励、所述环境奖励以及预设的约束参数得到总奖励；根据所述总奖励对累积奖励进行更新，得到更新后的累积奖励；如果所述累积奖励达到预设的目标奖励，根据预设变分下届阈值、所述当前状态数据以及指示参数得到多样性策略，所述多样性策略用于配置多个终端设备。本申请的方法能够使神经网络模型的鲁棒性提升。

Description

多样性策略的生成方法、装置、介质和计算设备

技术领域

本申请的实施例涉及人工智能技术领域，更具体地涉及一种多样性策略的生成方法、装置、介质和计算设备。

背景技术

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

近年来，神经网络在一系列深度强化学习的任务上，取得了优越的性能，例如可以应用在机器人控制、游戏、棋类运动等多个领域。通常可以向神经网络模型中输入智能体的状态数据，神经网络模型可以对状态数据进行处理，输出智能体将要实现的动作数据，以使智能体可以执行较高水平的动作。

发明内容

但是，出于神经网络模型的数据处理方式的原因，现有技术中如果有多个智能体需要同时进行处理，则需要神经网络模型对每个智能体的状态数据进行处理，然而，神经网络模型对每个智能体的状态数据处理的方式是相同的，因此输出的智能体需要实现的动作数据也是同一种固定的模式，可见，现有的数据处理方式很容易对状态数据过拟合，输出一种固定模式的动作数据。

因此在现有技术中，只能输出固定模式数据的神经网络模型的鲁棒性较差。

为此，非常需要一种改进的多样性策略的生成方法，以使神经网络模型的鲁棒性提升。

在本上下文中，本申请的实施例期望提供一种多样性策略的生成方法、装置、介质和计算设备。

在本申请的第一方面中，提供了一种多样性策略的生成方法，包括：

获取当前状态数据、指示参数以及环境奖励；所述当前状态数据中包括但不限于多个终端设备的当前观测状态数据；

将所述多个终端设备的当前观测状态数据和所述指示参数输入至神经网络模型，得到虚拟奖励；

根据所述虚拟奖励、所述环境奖励以及预设的约束参数得到总奖励；

根据所述总奖励对累积奖励进行更新，得到更新后的累积奖励；所述累积奖励为根据多个历史全局状态数据多个终端设备的多个历史观测状态数据得到的多个历史总奖励之和；

如果所述累积奖励达到预设的目标奖励，根据预设变分下届阈值、所述当前状态数据以及指示参数得到多样性策略，所述多样性策略用于配置多个终端设备。

在本申请的第二方面中，提供了一种多样性策略的生成装置，包括：

获取单元，用于获取当前状态数据、指示参数以及环境奖励；所述当前状态数据中包括但不限于多个终端设备的当前观测状态数据；

输入单元，用于将所述多个终端设备的当前观测状态数据和所述指示参数输入至神经网络模型，得到虚拟奖励；

总奖励确定单元，用于根据所述虚拟奖励、所述环境奖励以及预设的约束参数得到总奖励；

累积奖励确定单元，用于根据所述总奖励对累积奖励进行更新，得到更新后的累积奖励；所述累积奖励为根据多个历史全局状态数据多个终端设备的多个历史观测状态数据得到的多个历史总奖励之和；

策略确定单元，用于如果所述累积奖励达到预设的目标奖励，根据预设变分下届阈值、所述当前状态数据以及指示参数得到多样性策略，所述多样性策略用于配置多个终端设备。

在本申请的第三方面中，提供了一种计算机可读存储介质，其包括指令，当其在计算机上运行时，使得计算机执行如第一方面所述的方法。

在本申请的第四方面中，提供了一种计算设备，所述计算设备包括处理器以及存储器：

所述存储器用于存储程序代码；

所述处理器用于根据所述程序代码中的指令执行第一方面所述的方法。

根据本申请实施例的多样性策略的生成方法、装置、介质和计算设备，可以将多个终端设备的当前观测状态数据和指示参数输入至神经网络模型，以使神经网络模型输出虚拟奖励，并根据得到的虚拟奖励与环境奖励结合得到本次输入的总奖励，根据总奖励与以往的累积奖励判断本次输入是否达到目标奖励，如果达到了，可以认为神经网络模型可以输出多样性才策略，且多样性策略是配置与多个终端设备上的，可见，将多样性策略配置在不同的多个终端设备上可以使每个终端设备执行的操作不同，并不是一种固定模式的操作，以使神经网络模型的鲁棒性提升。

附图说明

通过参考附图阅读下文的详细描述，本申请示例性实施例的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本申请的若干实施例，其中：

图1为本申请一实施例提供的多样性策略的生成系统的应用场景示意图；

图2为本申请一实施例提供的多样性策略的生成方法的流程示意图；

图3为本申请一实施例提供的多样性策略的生成方法的区块链网络示意图；

图4为本申请一实施例提供的总奖励计算方法的流程示意图；

图5为本申请一实施例提供的多样性策略的生成方法的算法框架示意图；

图6为本申请一实施例提供的多样性策略的生成装置的结构示意图；

图7示意性地示出了本申请实施例的一种介质的结构示意图；

图8示意性地示出了本申请实施例的一种计算设备的结构示意图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施例来描述本申请的原理和精神。应当理解，给出这些实施例仅仅是为了使本领域技术人员能够更好地理解进而实现本申请，而并非以任何方式限制本申请的范围。相反，提供这些实施例是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本申请的实施例可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本申请的实施例，提出了一种多样性策略的生成方法、装置、介质和计算设备。

在本文中，需要理解的是，所涉及的术语：

强化学习(Reinforcement Learning，RL)是智能体(Agent)以“试错”的方式进行学习，通过与环境进行交互获得的奖赏指导行为，目标是使智能体获得最大的奖赏，强化学习不同于连接主义学习中的监督学习，主要表现在强化信号上，强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价(通常为标量信号)，而不是告诉强化学习系统(Reinforcement Learning System，RLS)如何去产生正确的动作。由于外部环境提供的信息很少，RLS必须靠自身的经历进行学习。通过这种方式，RLS在行动-评价的环境中获得知识，改进行动方案以适应环境。

概率图模型(Probabilistic Graphical Model，PGM)是用图来表示变量概率依赖关系的理论，结合概率论与图论的知识，利用图来表示与模型有关的变量的联合概率分布。由图灵奖获得者Pearl开发出来。概率图模型理论分为概率图模型表示理论，概率图模型推理理论和概率图模型学习理论。近10年它已成为不确定性推理的研究热点，在人工智能、机器学习和计算机视觉等领域有广阔的应用前景。

此外，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

在本申请实施例中，获取当前状态数据、指示参数以及环境奖励；所述当前状态数据中包括但不限于多个终端设备的当前观测状态数据；将所述多个终端设备的当前观测状态数据和所述指示参数输入至神经网络模型，得到虚拟奖励；根据所述虚拟奖励、所述环境奖励以及预设的约束参数得到总奖励；根据所述总奖励对累积奖励进行更新，得到更新后的累积奖励；如果所述累积奖励达到预设的目标奖励，根据预设变分下届阈值、所述当前状态数据以及指示参数得到多样性策略，所述多样性策略用于配置多个终端设备。

示例性地，结合参考图1，其示出了本申请一个实施例提供的多样性策略的生成系统的示意图。该多样性策略的生成系统可以包括应用平台10、终端设备20以及多样性策略的生成装置30。

应用平台10中可以包含多个终端设备20。

多样性策略的生成装置30用于获取当前状态数据、指示参数以及环境奖励；环境奖励为应用平台10发送的；所述当前状态数据中包括但不限于多个终端设备20的当前观测状态数据；将所述多个终端设备的当前观测状态数据和所述指示参数输入至神经网络模型，得到虚拟奖励；根据所述虚拟奖励、所述环境奖励以及预设的约束参数得到总奖励；根据所述总奖励对累积奖励进行更新，得到更新后的累积奖励；如果所述累积奖励达到预设的目标奖励，根据预设变分下届阈值、所述当前状态数据以及指示参数得到多样性策略，所述多样性策略用于配置多个终端设备。

可选地，应用平台10、终端设备20以及多样性策略的生成装置30之间通过网络进行通信。

下面，将结合几个实施例对本申请技术方案进行详细的介绍说明。

示例性方法

图2为本申请一实施例提供的多样性策略的生成方法的流程示意图，本申请实施例应用于图1所示的多样性策略的生成系统中，该多样性策略的生成系统包括应用平台、终端设备以及多样性策略的生成装置，本申请实施例仅以多样性策略的生成装置为例，对多样性策略的生成过程进行说明，需要注意的是，上述应用场景仅是为了便于理解本申请的精神和原理而示出，本申请的实施例在此方面不受任何限制。相反，本申请的实施例可以应用于适用的任何场景。请参阅图2，该方法包括以下步骤：

步骤S201，获取当前状态数据、指示参数以及环境奖励。

本申请实施例中，所述当前状态数据中包括但不限于多个终端设备的当前观测状态数据。多个终端设备可以是处于同一应用场景下的需要同时操控的智能体(Agent)，每个终端设备在当前应用场景下获取到的当前观测状态数据均不相同，因此需要实现的操作也不相同，当前观测状态数据可以为任意一个终端设备在当前应用场景下获取到的图像、音频、温度、指令等能够观测到的各类数据，该应用场景可以获取到每个终端设备得到的当前观测状态数据，以及该应用场景的所有数据信息，应用场景得到的每个终端设备得到的当前观测状态数据以及应用场景的所有数据信息可以组合得到应用场景的当前全局状态数据。环境奖励可以为每个终端设备在应用场景中执行的操作得到的奖励，该环境奖励可以通过应用场景侧的装置发送至多样性策略的生成装置中，指示参数可以为多分类标签(onehot向量)，且指示参数可以是随机生成的。

步骤S202，将所述多个终端设备的当前观测状态数据和所述指示参数输入至神经网络模型，得到虚拟奖励。

本申请实施例中，通过神经网络模型对多个终端设备的当前观测状态数据和指示参数进行运算，得到多个终端设备对应的虚拟奖励。

步骤S203，根据所述虚拟奖励、所述环境奖励以及预设的约束参数得到总奖励。

本申请实施例中，总奖励的计算方式可以为：

r_total(s_t,u_t)＝α_tr(s_t,u_t)+r_z(s_t,u_t)

其中，α_t表示约束参数，s_t表示输入的当前全局状态数据，u_t表示所有终端设备应该输出的所有动作集合，r(s_t，u_t)表示环境奖励，r_z(s_t，u_t)表示虚拟奖励，r_total(s_t，u_t)表示总奖励。

步骤S204，根据所述总奖励对累积奖励进行更新，得到更新后的累积奖励。

本申请实施例中，所述累积奖励为根据多个历史全局状态数据多个终端设备的多个历史观测状态数据得到的多个历史总奖励之和。可以理解为应用场景下的每个终端设备每执行操作一次就会将重复执行步骤S201～步骤S205，直至得到的累积奖励达到目标奖励，此时每个终端设备执行的操作的集合可以作为最终的多样性策略。历史全局状态数据即以往每次每个终端设备执行一次操作后应用场景侧的装置就会获取一次全局状态数据。

步骤S205，如果所述累积奖励达到预设的目标奖励，根据预设变分下届阈值、所述当前状态数据以及指示参数得到多样性策略。

本申请实施例中，所述多样性策略用于配置多个终端设备。目标奖励可以为预先设置的需要达到某一目标时需要的目标奖励。多样性策略的确定方式可以为：

其中，s.t.表示限制条件，从公式中可见，限制条件为：

其中，表示累积奖励，/>表示目标奖励；

该公式表示获取神经网络模型的变分下届的最大值，当限制条件满足时，此公式为多样性策略的表示方式。

本申请又一实施例中，所述当前状态数据保存在区块链节点上，区块链(Blockchain)是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。

参见图3所示的多样性策略的生成方法的区块链网络示意图，区块链网络中包含参与者节点，参与者节点用于应用平台及其终端设备在运行过程中产生的当前状态数据，如图3所示，区块链网络中包含参与者节点1和参与者节点2，应用平台1可以向参与者节点1发送当前状态数据，参与者节点1可以将接收到的当前状态数据进行存储，多样性策略的生成装置1可以从参与者节点1读取当前状态数据进行计算等操作；应用平台2可以向参与者节点2发送当前状态数据，参与者节点2可以将接收到的当前状态数据进行存储，多样性策略的生成装置2可以从参与者节点2读取当前状态数据进行计算等操作。为了保证区块链网络内的信息互通，区块链网络中的每个节点之间可以存在信息连接，节点之间可以通过上述信息连接进行信息传输。

对于区块链网络中的每个节点，均具有与其对应的节点标识，而且区块链网络中的每个节点均可以存储有区块链网络中其他节点的节点标识，以便后续根据其他节点的节点标识，将加密生成的区块广播至区块链网络中的其他节点。每个节点中可维护一个如下表所示的节点标识列表，将节点名称和节点标识对应存储至该节点标识列表中。其中，节点标识可为IP(Internet Protocol，网络之间互联的协议)地址以及其他任一种能够用于标识该节点的信息，表1中仅以IP地址为例进行说明。

表1

节点名称	节点标识
		节点1	117.114.151.174
节点2	117.116.189.145
		…	…
节点N	119.123.789.258

可选的，多样性策略的生成方法可以应用于区块链设备，多样性策略的生成装置可以为区块链设备，区块链设备为区块链中的节点，当前状态数据可以保存在区块链节点上。

本申请另一实施例中，为了提高虚拟奖励计算的准确性，可以通过神经网络模型中的多个策略网络、多个子判别网络和全局判别网络对当前观测状态数据进行计算，且策略网络与子判别网络一一对应，如图4所示，则上述步骤S202由以下步骤S401～步骤S404代替：

步骤S401，将所述终端设备的当前观测状态数据输入至所述策略网络，得到所述终端设备的行为数据。

本申请实施例中，所述终端设备与所述策略网络一一对应。行为数据可以为需要终端设备将要执行的操作，策略网络可以有多个，每个策略网络都只对一个终端设备的行为数据进行输出，且终端设备的数量与策略网络的数量相同，策略网络可以是循环神经网络(Recurrent Neural Network,RNN)。

步骤S402，将所述终端设备的当前状态观测数据和行为数据输入至与所述策略网络对应的子判别网络，得到所述终端设备的子虚拟奖励。

本申请实施例中，一个策略网络与一个子判别网络对应，子判别网络以为鉴别器(local discriminator)。

步骤S403，将每个所述终端设备的当前状态观测数据和行为数据输入至所述全局判别网络，得到全局虚拟奖励。

步骤S404，根据每个所述子虚拟奖励和所述全局虚拟奖励得到虚拟奖励。

本申请实施例中，虚拟奖励的计算方式可以为：

其中，z可以为指示参数，r_z(s_t，u_t)表示虚拟奖励，2log q_θ(z|s_1：t+1，u_1；t)表示全局虚拟奖励，表示各个子虚拟奖励的均值。

实施上述的步骤S401～步骤S404，可以通过神经网络模型中的多个策略网络、多个子判别网络和全局判别网络对输入的当前观测状态数据依次进行计算，以使得到的虚拟奖励更加准确。

可选的，如果所述累积奖励未达到预设的目标奖励，该方法还可以包括以下步骤：

根据所述总奖励对所述约束参数进行更新，并且根据所述总奖励对所述策略网络进行更新，以及根据所述总奖励对所述子判别网络和所述全局判别网络进行更新。

其中，实施这种实施方式，可以在累积奖励未达到预设的目标奖励的情况下根据计算得到的总奖励对约束参数、策略网络以及子判别网络和全局判别网络进行更新，以使约束参数、策略网络以及子判别网络和全局判别网络的性能更加优化。

具体的，根据所述总奖励对所述约束参数进行更新的具体方式为：根据所述目标奖励、根据所述总奖励更新后的累积奖励以及所述约束参数对所述约束参数进行更新，可以通过调节约束参数的大小对总奖励中环境奖励和虚拟奖励进行平衡，以使得到的总奖励更加具有合理性。

本申请实施例中，约束参数可以为拉格朗日乘子(Lagrange multiplier)，约束参数进行更新的方式可以为：

其中，表示期望的累积奖励。

以及，所述当前状态数据中还包括当前全局状态数据，所述根据所述总奖励对所述策略网络进行更新的具体方式为：根据更新后的所述约束参数、所述指示参数、所述策略网络的数据集以及所述当前状态数据对所述策略网络进行更新，可以对策略网络的变分下届进行最大化的优化。

本申请实施例中，对所述策略网络进行更新的方式为：

其中，表示对策略网络的变分下届进行最大化的优化，π表示策略网络，D表示策略网络的数据库，τ表示从策略网络的数据库中采样到历史应用场景中多个终端设备在达到累积奖励等于目标奖励的过程中产生的所有数据，公式的方括号中的s_1：t+1、/>以及s_t等均为从策略网络的数据库中采样到的数据。

此外，根据所述总奖励对所述子判别网络和所述全局判别网络进行更新的具体方式为：

根据所述策略网络的数据集、所述当前全局状态数据、所述指示参数以及所述每个所述终端设备的行为数据对所述全局判别网络进行更新，以使所述全局判别网络的梯度下降；

根据所述策略网络的数据集、所述多个终端设备的当前观测状态数据、所述指示参数以及所述终端设备的行为数据对所述子判别网络进行更新，以使所述子判别网络的梯度下降。

其中，实施这种实施方式，可以使全局判别网络和子判别网络均进行梯度下降，以使全局判别网络和子判别网络输出的数据的损失值尽量变小。

本申请实施例中，可以通过交叉熵损失函数对全局判别网络和多个子判别网络进行更新，全局判别网络和子判别网络都可以为RNN，对全局判别网络和多个子判别网络进行更新的具体方式可以为：

其中，CE表示交叉熵损失函数(Cross Entropy Loss)，表示对全局判别网络的更新，/>表示对子判别网络的更新，θ表示全局判别网络，θ_loc表示子判别网络，f_θ(s_1：t+1，u_1：t)，z)表示对z的概率预测。

请一并参阅图5，图5为本申请一实施例提供的多样性策略的生成方法的算法框架示意图；其中，图5中的表示对z的概率预测，Actor1～Actor n表示策略网络1～策略网络n，Discriminator1～Discriminator n可以为子判别网络1～子判别网络n，Global Discriminator可以为全局判别网络，Actor、Discriminator以及GlobalDiscriminator都可以为RNN，因此右侧的两个方框图可以表示RNN，MLP可以为多层感知器(Multilayer Perceptron)，GRU可以为门控循环单元(Gated Recurrent Unit)，h_t-1以及h_t可以为RNN隐藏状态，输出的/>可以为子虚拟奖励，Critic模块可以为评价器，用于对策略网络进行评价，V_ψ可以为累积奖励的估计。

本申请能够将多样性策略配置在不同的多个终端设备上可以使每个终端设备执行的操作不同，并不是一种固定模式的操作，以使神经网络模型的鲁棒性提升。此外，本申请还可以使得到的虚拟奖励更加准确。此外，本申请还可以使约束参数、策略网络以及子判别网络和全局判别网络的性能更加优化。此外，本申请还可以使得到的总奖励更加具有合理性。此外，本申请还可以对策略网络的变分下届进行最大化的优化。此外，本申请还可以使全局判别网络和子判别网络输出的数据的损失值尽量变小。

示例性装置

在介绍了本申请示例性实施方式的方法之后，接下来，参考图6对本申请示例性实施方式的一种多样性策略的生成装置进行说明，所述装置包括：

获取单元601，用于获取当前状态数据、指示参数以及环境奖励；所述当前状态数据中包括但不限于多个终端设备的当前观测状态数据；

输入单元602，用于将获取单元601获取到的所述多个终端设备的当前观测状态数据和所述指示参数输入至神经网络模型，得到虚拟奖励；

总奖励确定单元603，用于根据输入单元602得到的所述虚拟奖励、获取单元601获取到的所述环境奖励以及预设的约束参数得到总奖励；

累积奖励确定单元604，用于根据总奖励确定单元603得到的所述总奖励对累积奖励进行更新，得到更新后的累积奖励；所述累积奖励为根据多个历史全局状态数据多个终端设备的多个历史观测状态数据得到的多个历史总奖励之和；

策略确定单元605，用于如果累积奖励确定单元604确定的所述累积奖励达到预设的目标奖励，根据预设变分下届阈值、所述当前状态数据以及指示参数得到多样性策略，所述多样性策略用于配置多个终端设备。

作为一种可选的实施方式，所述神经网络模型中包括多个策略网络、多个子判别网络和全局判别网络，所述策略网络与所述子判别网络一一对应，输入单元602将所述多个终端设备的当前观测状态数据和所述指示参数输入至神经网络模型，得到虚拟奖励的方式具体为：

将所述终端设备的当前观测状态数据输入至所述策略网络，得到所述终端设备的行为数据；其中，所述终端设备与所述策略网络一一对应；

将所述终端设备的当前状态观测数据和行为数据输入至与所述策略网络对应的子判别网络，得到所述终端设备的子虚拟奖励；

将每个所述终端设备的当前状态观测数据和行为数据输入至所述全局判别网络，得到全局虚拟奖励；

根据每个所述子虚拟奖励和所述全局虚拟奖励得到虚拟奖励。

其中，实施这种实施方式，可以通过神经网络模型中的多个策略网络、多个子判别网络和全局判别网络对输入的当前观测状态数据依次进行计算，以使得到的虚拟奖励更加准确。

作为一种可选的实施方式，策略确定单元605还用于：

如果所述累积奖励未达到预设的目标奖励，根据所述总奖励对所述约束参数进行更新，并且根据所述总奖励对所述策略网络进行更新，以及根据所述总奖励对所述子判别网络和所述全局判别网络进行更新。

作为一种可选的实施方式，策略确定单元605根据所述总奖励对所述约束参数进行更新的方式具体为：

根据所述目标奖励、根据所述总奖励更新后的累积奖励以及所述约束参数对所述约束参数进行更新。

其中，实施这种实施方式，可以通过调节约束参数的大小对总奖励中环境奖励和虚拟奖励进行平衡，以使得到的总奖励更加具有合理性。

作为一种可选的实施方式，所述当前状态数据中还包括当前全局状态数据，策略确定单元605根据所述总奖励对所述策略网络进行更新的方式具体为：

根据更新后的所述约束参数、所述指示参数、所述策略网络的数据集以及所述当前状态数据对所述策略网络进行更新。

其中，实施这种实施方式，可以对策略网络的变分下届进行最大化的优化。

作为一种可选的实施方式，策略确定单元605根据所述总奖励对所述子判别网络和所述全局判别网络进行更新的方式具体为：

示例性介质

在介绍了本申请示例性实施例的方法和装置之后，接下来，参考图7对本申请示例性实施方式的计算机可读存储介质进行说明，请参考图7，其示出的计算机可读存储介质为光盘700，其上存储有计算机程序(即程序产品)，所述计算机程序在被处理器运行时，会实现上述方法实施方式中所记载的各步骤，例如，获取当前状态数据、指示参数以及环境奖励；所述当前状态数据中包括但不限于多个终端设备的当前观测状态数据；将所述多个终端设备的当前观测状态数据和所述指示参数输入至神经网络模型，得到虚拟奖励；根据所述虚拟奖励、所述环境奖励以及预设的约束参数得到总奖励；根据所述总奖励对累积奖励进行更新，得到更新后的累积奖励；如果所述累积奖励达到预设的目标奖励，根据预设变分下届阈值、所述当前状态数据以及指示参数得到多样性策略，所述多样性策略用于配置多个终端设备；各步骤的具体实现方式在此不再重复说明。

需要说明的是，所述计算机可读存储介质的例子还可以包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质，在此不再一一赘述。

示例性计算设备

在介绍了本申请示例性实施例的方法、介质和装置之后，接下来，参考图8对本申请示例性实施例的用于多样性策略的生成的计算设备。

图8示出了适于用来实现本申请实施方式的示例性计算设备80的框图，该计算设备80可以是计算机系统或服务器。图8显示的计算设备80仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图8所示，计算设备80的组件可以包括但不限于：一个或者多个处理器或者处理单元801，系统存储器802，连接不同系统组件(包括系统存储器802和处理单元801)的总线803。

计算设备80典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算设备80访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器802可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)8021和/或高速缓存存储器8022。计算设备80可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，ROM8023可以用于读写不可移动的、非易失性磁介质(图8中未显示，通常称为“硬盘驱动器”)。尽管未在图8中示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM，DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线803相连。系统存储器802中可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本申请各实施例的功能。

具有一组(至少一个)程序模块8024的程序/实用工具8025，可以存储在例如系统存储器802中，且这样的程序模块8024包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块8024通常执行本申请所描述的实施例中的功能和/或方法。

计算设备80也可以与一个或多个外部设备804(如键盘、指向设备、显示器等)通信。这种通信可以通过输入/输出(I/O)接口605进行。并且，计算设备80还可以通过网络适配器806与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图8所示，网络适配器806通过总线803与计算设备80的其它模块(如处理单元801等)通信。应当明白，尽管图8中未示出，可以结合计算设备80使用其它硬件和/或软件模块。

处理单元801通过运行存储在系统存储器802中的程序，从而执行各种功能应用以及数据处理，例如，获取当前状态数据、指示参数以及环境奖励；所述当前状态数据中包括但不限于多个终端设备的当前观测状态数据；将所述多个终端设备的当前观测状态数据和所述指示参数输入至神经网络模型，得到虚拟奖励；根据所述虚拟奖励、所述环境奖励以及预设的约束参数得到总奖励；根据所述总奖励对累积奖励进行更新，得到更新后的累积奖励；如果所述累积奖励达到预设的目标奖励，根据预设变分下届阈值、所述当前状态数据以及指示参数得到多样性策略，所述多样性策略用于配置多个终端设备。各步骤的具体实现方式在此不再重复说明。应当注意，尽管在上文详细描述中提及了多样性策略的生成装置的若干单元/模块或子单元/子模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

在本申请的描述中，需要说明的是，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

此外，尽管在附图中以特定顺序描述了本申请方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施例描述了本申请的精神和原理，但是应该理解，本申请并不限于所公开的具体实施例，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本申请旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种多样性策略的生成方法，包括：

获取当前状态数据、指示参数以及环境奖励；所述当前状态数据中包括多个终端设备的当前观测状态数据；所述指示参数为随机生成；

根据所述虚拟奖励、所述环境奖励以及预设的约束参数得到总奖励；所述约束参数作用于所述环境奖励；

如果所述累积奖励达到预设的目标奖励，根据预设变分下届阈值、所述当前状态数据以及指示参数得到多样性策略，所述多样性策略用于配置多个终端设备；

其中，所述神经网络模型中包括多个策略网络、多个子判别网络和全局判别网络，所述策略网络与所述子判别网络一一对应，所述将所述多个终端设备的当前观测状态数据和所述指示参数输入至神经网络模型，得到虚拟奖励，包括：

根据每个所述子虚拟奖励和所述全局虚拟奖励得到虚拟奖励；

其中，如果所述累积奖励未达到预设的目标奖励，所述方法还包括：

根据所述总奖励对所述约束参数进行更新，并且根据所述总奖励对所述策略网络进行更新，以及根据所述总奖励对所述子判别网络和所述全局判别网络进行更新；

所述约束参数为拉格朗日乘子，所述对约束参数进行更新的方式为：

其中，α_t表示约束参数，表示期望的累积奖励；/>表示目标奖励；

对所述策略网络进行更新的方式为：

其中，表示对策略网络的变分下届进行最大化的优化，π表示策略网络，D表示策略网络的数据库，τ表示从策略网络的数据库中采样到历史应用场景中多个终端设备在达到累积奖励等于目标奖励的过程中产生的所有数据，2logq_θ(z|s_1：t+1，u_1：t)表示全局虚拟奖励，/>表示各个子虚拟奖励的均值，公式的方括号中的s_1：t+1、/>以及s_t均为从策略网络的数据库中采样到的数据；

对全局判别网络和多个子判别网络进行更新的具体方式为：

其中，CE表示交叉熵损失函数，表示对全局判别网络的更新，/>表示对子判别网络的更新，θ表示全局判别网络，θloc表示子判别网络，f_θ(s_1：t+1，u_1；t)，z)表示对z的概率预测。

2.根据权利要求1所述的多样性策略的生成方法，所述根据所述总奖励对所述约束参数进行更新，包括：

3.根据权利要求1所述的多样性策略的生成方法，所述当前状态数据中还包括当前全局状态数据，所述根据所述总奖励对所述策略网络进行更新，包括：

4.根据权利要求3所述的多样性策略的生成方法，所述根据所述总奖励对所述子判别网络和所述全局判别网络进行更新，包括：

5.根据权利要求1～4中任一项所述的多样性策略的生成方法，所述当前状态数据保存在区块链节点上。

6.一种多样性策略的生成装置，包括：

获取单元，用于获取当前状态数据、指示参数以及环境奖励；所述当前状态数据中包括但不限于多个终端设备的当前观测状态数据；所述指示参数为随机生成；

总奖励确定单元，用于根据所述虚拟奖励、所述环境奖励以及预设的约束参数得到总奖励；所述约束参数作用于所述环境奖励；

策略确定单元，用于如果所述累积奖励达到预设的目标奖励，根据预设变分下届阈值、所述当前状态数据以及指示参数得到多样性策略，所述多样性策略用于配置多个终端设备；

其中，所述神经网络模型中包括多个策略网络、多个子判别网络和全局判别网络，所述策略网络与所述子判别网络一一对应，所述输入单元将所述多个终端设备的当前观测状态数据和所述指示参数输入至神经网络模型，得到虚拟奖励的方式具体为：

将所述终端设备的当前观测状态数据输入至所述策略网络，得到所述终端设备的行为数据；其中，所述终端设备与所述策略网络一一对应；将所述终端设备的当前状态观测数据和行为数据输入至与所述策略网络对应的子判别网络，得到所述终端设备的子虚拟奖励；将每个所述终端设备的当前状态观测数据和行为数据输入至所述全局判别网络，得到全局虚拟奖励；根据每个所述子虚拟奖励和所述全局虚拟奖励得到虚拟奖励；

所述装置的策略确定单元还用于：

如果所述累积奖励未达到预设的目标奖励，根据所述总奖励对所述约束参数进行更新，并且根据所述总奖励对所述策略网络进行更新，以及根据所述总奖励对所述子判别网络和所述全局判别网络进行更新；

对所述策略网络进行更新的方式为：

对全局判别网络和多个子判别网络进行更新的具体方式为：

其中，CE表示交叉熵损失函数，表示对全局判别网络的更新，/>表示对子判别网络的更新，θ表示全局判别网络，θ_loc表示子判别网络，f_θ(s_1：t+1，u_1：t)，z)表示对z的概率预测。

7.根据权利要求6所述的多样性策略的生成装置，所述策略确定单元根据所述总奖励对所述约束参数进行更新的方式具体为：

8.根据权利要求6所述的多样性策略的生成装置，所述当前状态数据中还包括当前全局状态数据，所述策略确定单元根据所述总奖励对所述策略网络进行更新的方式具体为：

9.根据权利要求8所述的多样性策略的生成装置，所述策略确定单元根据所述总奖励对所述子判别网络和所述全局判别网络进行更新的方式具体为：

根据所述策略网络的数据集、所述当前全局状态数据、所述指示参数以及所述每个所述终端设备的行为数据对所述全局判别网络进行更新，以使所述全局判别网络的梯度下降；根据所述策略网络的数据集、所述多个终端设备的当前观测状态数据、所述指示参数以及所述终端设备的行为数据对所述子判别网络进行更新，以使所述子判别网络的梯度下降。

10.根据权利要求6～9中任一项所述的多样性策略的生成装置，所述当前状态数据保存在区块链节点上。

11.一种存储有程序的存储介质，其中，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1～5中的任一项所述的方法。

12.一种计算设备，所述计算设备包括处理器以及存储器：

所述存储器用于存储程序代码；

所述处理器用于根据所述程序代码中的指令执行权利要求1～5中任一项所述的方法。