CN115330556B

CN115330556B - 充电站的信息调整模型的训练方法、装置及产品

Info

Publication number: CN115330556B
Application number: CN202210955011.XA
Authority: CN
Inventors: 张韦嘉; 张乐; 刘浩; 韩金栋; 秦川; 祝恒书; 熊辉
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-08-10
Filing date: 2022-08-10
Publication date: 2024-04-02
Anticipated expiration: 2042-08-10
Also published as: EP4220487A2; EP4220487A3; US20230229913A1; JP2023083276A; CN115330556A

Abstract

本公开提供了一种充电站的信息调整模型的训练方法、装置、电子设备、存储介质及程序产品，涉及人工智能技术领域，具体涉及多智能体强化学习技术领域。具体实现方案为：获取充电请求，确定充电站集合中的每个充电站对应的环境状态信息；通过初始策略网络，根据每个充电站对应的环境状态信息，确定充电站对于充电请求的目标运营信息；通过初始价值网络，根据充每个充电站对应的环境状态信息和目标运营信息，确定充电请求对应的累计奖励期望；采用深度确定性策略梯度算法，训练初始策略网络和初始价值网络；将训练后的策略网络，确定为充电站对应的信息调整模型。本公开提高了充电站确定目标运营信息的实时性、合理性，以及充电站之间的协调性。

Description

充电站的信息调整模型的训练方法、装置及产品

技术领域

本公开涉及人工智能技术领域，具体涉及多智能体强化学习技术领域，尤其涉及充电站的信息调整模型的训练方法、装置以及充电站的选择方法、装置、电子设备、存储介质以及计算机程序产品，可用于充电站充电场景下。

背景技术

随着社会对清洁能源和环境保护问题的关注，充电汽车开始成为越来越多人的选择。虽然城市兴建了很多的公共充电站，以满足日益增长的充电需求，但这些充电站一般每隔固定时间(例如，1小时)进行统一动态调价，普遍面临着充电需求不均衡、利用率低的问题，使得充电汽车司机充电体验不佳。充电站利用率低也阻碍了运营商建设对于充电站的建设，阻碍了充电汽车的进一步普及。

发明内容

本公开提供了一种充电站的信息调整模型的训练方法、装置以及充电站的选择方法、装置、电子设备、存储介质以及计算机程序产品。

根据第一方面，提供了一种充电站的信息调整模型的训练方法，包括：获取充电请求，并确定充电站集合中的每个充电站对应的环境状态信息；通过初始策略网络，根据充电站集合中的每个充电站对应的环境状态信息，确定充电站集合中的每个充电站对于充电请求的目标运营信息；通过初始价值网络，根据充电站集合中的每个充电站对应的环境状态信息和目标运营信息，确定充电请求对应的累计奖励期望；采用深度确定性策略梯度算法，训练初始策略网络和初始价值网络，得到训练后的策略网络和价值网络，其中，在训练过程中，通过时间差分方法更新初始价值网络，以最大化充电请求对应的累计奖励期望为目标更新初始策略网络；将训练后的策略网络，确定为充电站集合中的每个充电站对应的信息调整模型。

根据第二方面，提供了一种充电站的选择方法，包括：获取充电请求；确定充电站集合中的每个充电站对应的环境状态信息；通过该充电站对应的训练后的信息调整模型，根据该充电站对应的环境状态信息，确定该充电站对于充电请求的目标运营信息，其中，信息调整模型在充电站集合中的充电站之间感知彼此的环境状态信息的基础上，基于深度确定性策略梯度算法进行多智能体强化学习得到；展示充电站集合中的每个充电站对于充电请求的目标运营信息；接收选择指令，并根据选择指令从充电站集合中确定出目标充电站。

根据第三方面，提供了一种充电站的信息调整模型的训练装置，包括：第一确定单元，被配置成获取充电请求，并确定充电站集合中的每个充电站对应的环境状态信息；第二确定单元，被配置成通过初始策略网络，根据充电站集合中的每个充电站对应的环境状态信息，确定充电站集合中的每个充电站对于充电请求的目标运营信息；第三确定单元，被配置成通过初始价值网络，根据充电站集合中的每个充电站对应的环境状态信息和目标运营信息，确定充电请求对应的累计奖励期望；训练单元，被配置成采用深度确定性策略梯度算法，训练初始策略网络和初始价值网络，得到训练后的策略网络和价值网络，其中，在训练过程中，通过时间差分方法更新初始价值网络，以最大化充电请求对应的累计奖励期望为目标更新初始策略网络；第四确定单元，被配置成将训练后的策略网络，确定为充电站集合中的每个充电站对应的信息调整模型。

根据第四方面，提供了一种充电站的选择装置，包括：获取单元，被配置成获取充电请求；第五确定单元，被配置成确定充电站集合中的每个充电站对应的环境状态信息；第六确定单元，被配置成对于所述充电站集合中的每个充电站，通过该充电站对应的、训练后的信息调整模型，根据该充电站对应的环境状态信息，确定该充电站对于充电请求的目标运营信息，其中，信息调整模型在充电站集合中的充电站之间感知彼此的环境状态信息的基础上，基于深度确定性策略梯度算法进行多智能体强化学习得到；展示单元，被配置成展示充电站集合中的每个充电站对于充电请求的目标运营信息；接收单元，被配置成接收选择指令，并根据选择指令从充电站集合中确定出目标充电站。

根据第五方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如第一方面、第二方面任一实现方式描述的方法。

根据第六方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机执行如第一方面、第二方面任一实现方式描述的方法。

根据第七方面，提供了一种计算机程序产品，包括：计算机程序，计算机程序在被处理器执行时实现如第一方面、第二方面任一实现方式描述的方法。

根据本公开的技术，提供了一种充电站的信息调整模型的训练方法，以充电站为智能体，基于深度确定性策略梯度算法进行多智能体强化学习，训练得到可以实时确定目标运营信息的策略网络作为信息调整模型，提高了充电站确定目标运营信息的实时性和合理性；在模型训练阶段，以最大化充电站集合整体的累计奖励为目标，让智能体之间能够感知彼此和整个环境信息，提高了充电站集合中的充电站之间的协调性，有助于解决充电站之间的充电不协调问题，提高了充电站的利用率。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开的一个实施例可以应用于其中的示例性系统架构图；

图2是根据本公开的充电站的信息调整模型的训练方法的一个实施例的流程图；

图3是根据本实施例的充电站的信息调整模型的训练方法的应用场景的示意图；

图4是根据本实施例的智能体池化模块的处理流程示意图；

图5是根据本实施例的从充电站集合中选取子集的示意图；

图6是根据本公开的充电站的信息调整模型的训练方法的又一个实施例的流程图；

图7是根据本公开的充电站的选择方法的一个实施例的流程图；

图8是根据本公开的充电站的信息调整模型的训练装置的一个实施例的结构图；

图9是根据本公开的充电站的选择装置的一个实施例的结构图；

图10是适于用来实现本公开实施例的计算机系统的结构示意图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

图1示出了可以应用本公开的充电站的信息调整模型的训练方法及装置、充电站的选择方法及装置的示例性架构100。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。终端设备101、102、103之间通信连接构成拓扑网络，网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

终端设备101、102、103可以是支持网络连接从而进行数据交互和数据处理的硬件设备或软件。当终端设备101、102、103为硬件时，其可以是支持网络连接，信息获取、交互、显示、处理等功能的各种电子设备，包括但不限于智能手机、平板电脑、车载电脑、电子书阅读器、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时，可以安装在上述所列举的电子设备中。其可以实现成例如用来提供分布式服务的多个软件或软件模块，也可以实现成单个软件或软件模块。在此不做具体限定。

服务器105可以是提供各种服务的服务器，例如，根据终端设备101、102、103提供的训练样本，采用深度确定性策略梯度算法记性多智能体强化学习，以得到每个充电站对应的训练后的信息调整模型的后台处理服务器。又例如，根据终端设备101、102、103提供的充电请求，对于目标充电站，通过该目标充电站对应的信息调整模型确定对于充电请求的目标运营信息，以供用户根据目标运行信息从充电站集合中选择目标充电站的后台处理服务器。作为示例，服务器105可以是云端服务器。

需要说明的是，服务器可以是硬件，也可以是软件。当服务器为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块)，也可以实现成单个软件或软件模块。在此不做具体限定。

还需要说明的是，本公开的实施例所提供的充电站的信息调整模型的训练方法、充电站的选择方法可以由服务器执行，也可以由终端设备执行，还可以由服务器和终端设备彼此配合执行。相应地，充电站的信息调整模型的训练装置、充电站的选择装置包括的各个部分(例如各个单元)可以全部设置于服务器中，也可以全部设置于终端设备中，还可以分别设置于服务器和终端设备中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。当充电站的信息调整模型的训练方法、充电站的选择方法运行于其上的电子设备不需要与其他电子设备进行数据传输时，该系统架构可以仅包括充电站的信息调整模型的训练方法、充电站的选择方法运行于其上的电子设备(例如服务器或终端设备)。

请参考图2，图2为本公开实施例提供的一种充电站的信息调整模型的训练方法的流程图，其中，流程200包括以下步骤：

步骤201，获取充电请求，并确定充电站集合中的每个充电站对应的环境状态信息。

本实施例中，充电站的信息调整模型的训练方法的执行主体(例如，图1中的终端设备或服务器)可以基于有线网络连接方式或无线网络连接方式从远程，或从本地获取充电请求，并确定充电站集合中的每个充电站对应的环境状态信息。

充电请求可以是充电汽车中的用户通过智能手机、车载电脑等终端设备发出的表征充电汽车需要充电的请求。充电汽车有充电需求时，相应的司机、乘客等用户便会在充电平台发起充电请求，充电请求q_t被定义为一天中的第t个充电请求。充电请求q_t包括以下属性：q_t发出的位置l_t，q_t发出的时间T_t，以及q_t完成时的时间T′_t(当充电请求对应的充电汽车充电成功，或者充电失败，认为完成该充电请求)。

对于接收到的充电请求，需要向用户反馈充电站集合中的各充电站的目标运营信息，以使得用户根据反馈的目标运营信息从充电站集合中选取充电站。

步骤202，通过初始策略网络，根据充电站集合中的每个充电站对应的环境状态信息，确定充电站集合中的每个充电站对于充电请求的目标运营信息。

本实施例中，上述执行主体可以通过初始策略网络，根据充电站集合中的每个充电站对应的环境状态信息，确定充电站集合中的每个充电站对于充电请求的目标运营信息。

目标运营信息可以是充电站在运营过程中可调整的任意运营信息，作为示例，目标运营信息可以是充电站的定价信息、充电时间信息、充电速度信息等运营信息。

以定价信息为例，其具体可以是充电单价。充电单价表征充电站每千瓦时的充电价格，包括充电站每千瓦时的电费单价和服务费单价。当一个充电请求q_t成功被充电站服务，即在该充电站成功充电，则充电站针对充电请求q_t的这次充电服务的利润被定义为：

利润＝(充电单价-电费单价)×充电量

进一步的，充电站集合中的多个充电站的总利润为所有充电请求对应的利润总和。

充电站集合包括多个充电站，作为示例，充电站集合为预设划分区域(例如，按照行政区域划分得到，或者按照指定面积划分得到)中的所有充电站。每一个充电站可以视为一个智能体，充电站集合C中包括N个充电站cⁱ∈C。

对于每个充电站cⁱ来说，其相对于充电请求q_t的环境状态信息可以视为充电站cⁱ的观察，包括表征该充电站cⁱ的信息、表征充电请求q_t与该充电站cⁱ之间的关联性的信息。作为示例，对于充电请求q_t，充电站cⁱ的环境状态信息包括：当前的时间T_t；充电站cⁱ现在的空闲充电位数量；充电站cⁱ附近未来预设时间段(例如，15分钟)的充电请求数量(可以使用训练好的预测模型来预测未来的充电请求数量)；从当前充电请求位置到充电站cⁱ的估计行驶时间；充电站cⁱ的充电功率；当前cⁱ的电费单价；正在前往cⁱ的充电汽车数量(可通过充电平台应用获取)。

本实施例中采用actor(策略网络)-critic(价值网络)架构。其中，策略网络用于根据充电站集合中的每个充电站对应的环境状态信息，确定动作信息，也即，充电站集合中的每个充电站对于充电请求的目标运营信息。

作为示例，定义为所有智能体在第t步(也即第t个充电请求)的联合观察(联合环境状态信息)，将O_t输入策略网络，得到充电站集合中的每个充电站对于充电请求的目标运营信息/>

对于充电站集合中的每个充电站，给定当前观察每个充电站cⁱ同时执行一个连续动作/>即充电站cⁱ为充电请求q_t提供的实时目标运营信息。在此，定义所有智能体的联合动作为/>每个充电站cⁱ确定对应的目标运营信息/>充电请求q_t的发出用户可以根据每个充电站的目标运营信息，选取合适的充电站进行充电。对于充电请求q_t对应的状态S_t到下一个充电请求q_t+1所关联的状态S_t+1的变化过程可以视为状态转移。伴随着状态转移，充电站集合中的每个充电站c_i的环境状态信息/>转移为/>

其中，策略网络可以采用深度神经网络，例如，深度卷积网络、残差网络等网络模型。

步骤203，通过初始价值网络，根据充电站集合中的每个充电站对应的环境状态信息和目标运营信息，确定充电请求对应的累计奖励期望。

本实施例中，上述执行主体可以通过初始价值网络，根据充电站集合中的每个充电站对应的环境状态信息和目标运营信息，确定充电请求对应的累计奖励期望。累计奖励期望可以视为策略网络所确定的充电站的目标运营信息的打分，数值越高，表征策略网络的目标运营信息越好。

作为示例，定义X_D，t＝[O_t||A_t]为所有充电站的联合观察O_t和联合动作A_t拼接后的联合特征。将联合特征X_D，t输入初始价值网络，得到充电请求对应的累计奖励期望。

充电站集合中的所有充电站的目标是最大化一天中的所有充电请求集合的累计奖励R_t：

其中，γ表示折扣率，r_t′表示对应的奖励。

累计奖励期望即是累计奖励R_t的期望值。

本实施例中，价值网络可以采用深度神经网络，例如，深度卷积网络、残差网络等网络模型。其中，价值网络可以采用与策略网络相同的网络结构，也可以采用与策略网络不同的网络结构。

步骤204，采用深度确定性策略梯度算法，训练初始策略网络和初始价值网络，得到训练后的策略网络和价值网络。

本实施例中，上述执行主体可以采用深度确定性策略梯度算法，训练初始策略网络和初始价值网络，得到训练后的策略网络和价值网络。其中，在训练过程中，通过时间差分方法更新初始价值网络，以最大化充电请求对应的累计奖励期望为目标更新初始策略网络。

深度确定性策略梯度(Deep Deterministic Policy Gradient，DDPG)算法，是将深度学习神经网络融合进DPG(Deterministic Policy Gradient，确定性策略梯度)的策略学习方法。相比于DPG算法，DDPG算法采用深度神经网络作为策略函数和价值函数的模拟；然后，使用深度学习的方法来训练策略函数和价值函数。

作为示例，对于每个充电请求q_t，通过执行步骤202、203确定充电站集合中的每个充电站对于充电请求的目标运营信息，以及充电请求对应的累计奖励期望，进而，通过时间差分(Temporal Difference，TD)方法更新初始价值网络，对于更新后的初始价值网络，以最大化充电请求对应的累计奖励期望为目标更新初始策略网络，得到更新后的初始策略网络。对于每个充电请求，迭代执行上述训练过程，直至达到预设结束条件，得到训练后的策略网络和价值网络。其中，预设结束条件例如可以是训练时间超过预设时间阈值，训练次数超多预设次数阈值，训练损失趋于收敛。

步骤205，将训练后的策略网络，确定为充电站集合中的每个充电站对应的信息调整模型。

本实施例中，上述执行主体可以将训练后的策略网络，确定为充电站集合中的每个充电站对应的信息调整模型。

作为示例，对于充电站集合中的每个充电站，可以部署信息调整模型，以根据接收到的充电请求，实时确定目标运营信息。

继续参见图3，图3是根据本实施例的充电站的信息调整模型的训练方法的应用场景的一个示意图300。在图3的应用场景中，首先，服务器301从终端设备302获取充电请求，并确定充电站集合303中的每个充电站对应的环境状态信息；然后，通过初始策略网络304，根据充电站集合303中的每个充电站对应的环境状态信息，确定充电站集合中的每个充电站对于充电请求的目标运营信息；通过初始价值网络305，根据充电站集合303中的每个充电站对应的环境状态信息和目标运营信息，确定充电请求对应的累计奖励期望；采用深度确定性策略梯度算法，训练初始策略网络和初始价值网络，得到训练后的策略网络306和价值网络307，其中，在训练过程中，通过时间差分方法更新初始价值网络，以最大化充电请求对应的累计奖励期望为目标更新初始策略网络；将训练后的策略网络306，确定为充电站集合中的每个充电站对应的信息调整模型。

本实施例中，提供了一种充电站的信息调整模型的训练方法，以充电站为智能体，基于深度确定性策略梯度算法进行多智能体强化学习，训练得到可以实时确定目标运营信息的策略网络作为信息调整模型，提高了充电站确定目标运营信息的实时性和合理性；在模型训练阶段，以最大化充电站集合整体的累计奖励为目标，让智能体之间能够感知彼此和整个环境信息，提高了充电站集合中的充电站之间的协调性，有助于解决充电站之间的充电不协调问题，提高了充电站的利用率。

在本实施例的一些可选的实现方式中，上述执行主体可以通过如下方式执行上述步骤203：

第一，通过智能体池化模块，根据充电站集合中的每个充电站对应的环境状态信息和目标运营信息，确定表征充电站集合中的所有充电站的集成表示信息；第二，通过初始价值网络，根据集成表示信息，确定充电请求对应的累计奖励期望。

对于集中式的大规模的充电站的训练过程，需要涉及所有充电站的联合观察O_t和联合动作A_t，联合观察O_t和联合动作A_t的维度随着充电站数量的增加而增加。在大规模的智能体系统中，集中式训练的方式会遇到维度爆炸的问题，造成训练效果较差。因此，可以通过智能体池化(Agents Pooling，AP)模块对联合观察O_t和联合动作A_t进行降维，以解决集中式训练过程中因智能体过多造成的向量维度爆炸问题。

本实现方式中，通过智能体池化模块对充电站集合中的所有充电站对应的环境状态信息和目标运营信息进行降维，解决集中式训练过程中因充电站过多造成的向量维度爆炸问题，提高了训练过程的适用性和训练效率。

在本实施例的一些可选的实现方式中，上述执行主体可以通过如下方式执行上述第一步骤：首先，通过映射向量，将充电站集合中的每个充电站对应的环境状态信息和目标运营信息，映射为表征充电站的重要性的分数特征；然后，根据分数特征，从充电站集合中确定出预设数量个充电站，并确定预设数量个充电站对应的环境状态信息、目标运营信息和分数特征；然后，归一化预设数量个充电站对应的分数特征，得到门控向量；然后，根据预设数量个充电站对应的环境状态信息、目标运营信息和门控向量，确定门控特征；最后，根据门控特征，确定充电站集合中的所有充电站的集成表示信息。

如图4所示，示出了智能体池化模块的处理流程示意图。具体来说，定义X_D＝[O||A]为所有充电站的联合观察和联合动作拼接后的联合特征。通过可学习的智能体池化模块，将充电站集合中的充电站的重要信息蒸馏为潜在表示，同时去掉冗余信息。需要说明的是，下述的操作均假设在第t步完成，因此，为例简化符号表示，省略下标t。

首先，通过如下公式，学习将X_D投射成表征充电站的重要性的分数特征(具体可以为重要性分数)，以用于充电站集合C中的充电站的选择。

Y_D＝X_Dp_D

其中，p_D是一个可学习的映射向量。

然后，基于分数特征Y_D选择最重要的前top-k个充电站，并丢弃其它充电站，来实现充电站的筛选过滤。

其中，表示分数最大的top-k个重要性分数，/>表示top-k个重要性分数一一对应的充电站的联合特征，k_h表示top-k对应的数值，Filter表示筛选过滤。

然后，通过如下公式，采用一种门控机制来控制知识的保留：

其中，被归一化为一个门控向量，⊙表示哈达玛积。在此，选用Softmax作为归一化函数Norm。需要注意的是，门控机制可以让梯度能流入投影向量p_D，这使得p_D可以通过反向传播进行学习。所得到的得到门控特征/>

最后，通过如下公式，根据门控特征得到降维后的充电站集合C的集成表示信息：

其中，||表示向量拼接操作。

本实现方式中，提供了一种智能体池化模块的具体运行流程，基于充电站的筛选过滤，确定相对于充电请求而言比较重要的充电站；基于门控机制控制知识的保留，进一步提高了智能体池化模块所确定的集成表示信息的准确度，以及训练过程的训练效率。

在本实施例的一些可选的实现方式中，上述执行主体可以通过如下方式执行上述步骤204：

第一，通过时间差分方法确定初始价值网络对应的第一损失。

时间差分方法包括on-policy的Sarsa方法和off-policy的Q-Learning方法，本实现方式中，可以通过任一种时间差分方法确定初始价值网络对应的第一损失。

第二，通过自监督对比学习方法确定智能体池化模块对应的第二损失。

具体来说，给定一个查询实例H_q，一个正实例H₊和K-1个负实例自监督对比学习旨在让查询实例H_q与正实例H₊之间的匹配度，高于查询实例H_q与任意负实例/>之间的匹配度，以促进学习到更有区分度的实例的表示。

本实现方式中，可以通过智能体池化模块所表示的充电站集合对应的集成表示信息作为查询示例，并确定集成表示信息对应的正示例和负示例，以确定集成表示信息与对应的正实例和负实例之间的自监督对比学习损失InfoNCE，作为第二损失。

第三，根据第一损失和第二损失，更新初始价值网络和智能体池化模块。

本实现方式中，上述执行主体可以基于求和、加权求和等方式根据第一损失和第二损失确定总损失，进而根据总损失确定梯度，以根据梯度下降法更新初始价值网络和智能体池化模块。

第四，以最大化充电请求对应的累计奖励期望为目标更新初始策略网络。

本实现方式中，策略网络u的学习目标是最大化下述累计奖励期望:

其中，Du表示训练样本集，θ^u表示策略网络u的参数，Q表示价值网络，H_t表示充电请求q_t对应的充电站集合中的充电站的集成表示信息。训练样本集中可以包括所有充电站的联合观察、联合动作以及奖励信息。

本实现方式中，提供了策略网络、池化模块和价值网络的具体训练过程，有助于提高训练得到的策略网络、池化模块和价值网络的准确度。

在本实施例的一些可选的实现方式中，上述执行主体可以通过如下方式执行上述第二步骤：

首先，对于联合特征中的第一子集，通过智能体池化模块确定第一集成表示信息，其中，联合特征中包括充电站集合中的每个充电站对应的环境状态信息和目标运营信息；然后，对于联合特征中的第二子集，通过智能体池化模块确定第二集成表示信息；然后，对于与充电请求不同的其他充电请求对应的联合特征中的第三子集，通过智能体池化模块确定第三集成表示信息；最后，将根据第一集成表示信息、第二集成表示信息和第三集成表示信息确定的自监督对比学习损失，作为第二损失。

本实现方式中，一个需要被解决的问题是如何训练上述智能体池化模块，以通过训练后的智能体池化模块得到一个有效的大规模智能体潜在表示。一个简单的方法是通过强化学习的优化目标来更新智能体池化模块。然而，强化学习算法通过环境的反馈奖励来优化智能体的策略，这种优化方式相比有监督学习要难控制的多。可以想象，对于强化学习来说，从高维输入中学习有效的潜在表示是非常困难的。在此，本实实现方式提出了一个对比学习目标作为辅助任务来促进智能体池化模块对大规模智能体的表示学习。

作为示例，以充电请求q_t的位置l_t为中心，选择距离l_t最近的top-k_c个充电站对应的环境状态信息和目标运营信息组成x_q。如图5所示，选取智能体的过程看起来像是从地图上截取了一个子区域501。进而，通过如下公式得到第一集成表示信息H_q：

H_q＝AP(x_q)

同样，正实例H₊的充电站特征子集x₊可通过在与H_q相同的X_D中随机选择一个位置作为中心，截取距离该中心最近的top-k_c个充电站组成x₊。在此可以确定多个不同的负实例，负实例的智能体特征子集/>则从与充电请求q_t不同的其他充电请求(例如，充电请求q_t-1、q_t-2)对应的X_D中采用上述相同方式截取得到。H₊和/>同样通过分别在x₊和/>上执行智能体池化操作获得。

同理，第二集成表示信息H₊、第三集成表示信息

H₊＝AP(x₊)

然后，采用InfoNCE损失优化我们的对比学习目标，

其中，W_c是智能体池化模块中可学习的参数。第二损失L_c将作为辅助任务与强化学习目标进行联合优化。

本实现方式中，通过自监督对比学习的方式确定智能体池化模块的损失，相比于采用强化学习算法通过环境的反馈奖励来优化智能体的策略，降低了训练难度，提高了训练效率。

在本实施例的一些可选的实现方式中，上述执行主体可以通过如下方式执行上述第一步骤，以得到第一损失：

首先，通过预设奖励函数，确根据充电请求对应的充电对象的充电行为，确定奖励信息。其中，充电站集合中的每个充电站共享奖励信息，预设奖励函数对于不同充电行为的奖励不同。然后，通过时间差分算法，根据充电请求对应的累计奖励期望、充电请求对应的奖励和充电请求的下一充电请求对应的累计奖励期望，确定初始价值网络对应的第一损失。

本实现方式中，提出了一种延迟的奖励设计。具体来说，如果q_t对应的充电汽车未前往所控制的充电站(充电站集合中的充电站)充电，则环境返回的奖励为0。如果充电请求q_t对应的充电汽车被充电站吸引选择前往充电，但充电失败，则环境会返回一个相对小的奖励∈。如果q_t对应的充电汽车最终在充电站成功充电，则环境还会额外返回单位利润p_t(充电单价-电费单价)作为额外奖励。

并且，本实现方式中，充电站集合中的所有充电站共享同一奖励，以激励这些充电站彼此合作实现总利润最大。

进而，通过如下公式确定第一损失

其中，θ^Q表示价值函数的参数；Q(H_t)表示价值函数Q根据集成表示信息H_t，所确定的充电请求q_t对应的累计奖励期望；y_t表示TD target(时间差分目标)；r_t表示充电请求q_t对应的奖励；Q(H_t+1)表示下一充电请求对应的累计奖励期望；γ表示折扣率；表示策略网络u根据充电站cⁱ所对应的下一充电请求的环境状态信息得到目标运营信息/>

本实现方式中，通过所设计的预设奖励函数，确定不同充电请求对应的奖励，进而根据时间差分法确定第一损失，提高了第一损失的准确度；预设奖励函数得到的奖励在充电站集合中的充电站之间共享，有助于激励这些充电站彼此合作，提高充电站之间的协同性。

本实现方式中，上述执行主体可以通过如下公式确定第一损失和第二损失的加权和：

其中，θ^P表示智能体池化模块的参数，λ表示第二损失L_c的加权项。

继续参考图6，示出了根据本公开的充电站的信息调整模型的训练方法的又一个实施例的示意性流程600，包括以下步骤：

步骤601，获取充电请求，并确定充电站集合中的每个充电站对应的环境状态信息。

步骤602，通过初始策略网络，根据充电站集合中的每个充电站对应的环境状态信息，确定充电站集合中的每个充电站对于充电请求的目标运营信息。

步骤603，通过映射向量，将充电站集合中的每个充电站对应的环境状态信息和目标运营信息，映射为表征充电站的重要性的分数特征。

步骤604，根据分数特征，从充电站集合中确定出预设数量个充电站，并确定预设数量个充电站对应的环境状态信息、目标运营信息和分数特征。

步骤605，归一化预设数量个充电站对应的分数特征，得到门控向量。

步骤606，根据预设数量个充电站对应的环境状态信息、目标运营信息和门控向量，确定门控特征。

步骤607，根据门控特征，确定充电站集合中的所有充电站的集成表示信息。

步骤608，通过初始价值网络，根据集成表示信息，确定充电请求对应的累计奖励期望。

步骤609，通过时间差分方法确定初始价值网络对应的第一损失。

步骤610，通过自监督对比学习方法确定智能体池化模块对应的第二损失。

步骤611，根据第一损失和第二损失，更新初始价值网络和智能体池化模块，以最大化充电请求对应的累计奖励期望为目标更新初始策略网络，得到训练后的策略网络和价值网络。

步骤612，将训练后的策略网络，确定为充电站集合中的每个充电站对应的信息调整模型。

从本实施例中可以看出，与图2对应的实施例相比，本实施例中的充电站的信息调整模型的训练方法的流程600具体说明了通过智能体池化模块的处理过程，以及多智能体强化学习过程，进一步提高了充电站集合中的充电站之间的协调性，提高了充电站确定目标运营信息的实时性和合理性。

继续参考图7，示出了根据本公开的充电站的选择方法的一个实施例的示意性流程700，包括以下步骤：

步骤701，获取充电请求。

本实施例中，充电站的选择方法的执行主体(例如，图1中的终端设备或服务器)可以基于有线网络连接方式或无线网络连接方式从远程，或从本地获取充电请求。

充电请求可以是充电汽车中的用户通过智能手机、车载电脑等终端设备发出的表征充电汽车需要充电的请求。充电汽车有充电需求时，相应的司机、乘客等用户便会在充电平台发起充电请求，充电请求q_t被定义为一天中的第t个充电请求。充电请求q_t包括以下属性：q_t发出的位置l_t，q_t发出的时间T_t。

步骤702，确定充电站集合中的每个充电站对应的环境状态信息。

本实施例中，上述执行主体可以确定目标充电站对应的环境状态信息。

充电站集合包括多个充电站，作为示例，充电站集合为预设划分区域(例如，按照行政区域划分得到，或者按照指定面积划分得到)中的所有充电站。每一个充电站可以视为一个智能体，充电站集合C中包括N个充电站cⁱ∈C。对于一个充电请求，其对应的充电站集合中的所有充电站构成的位置范围包括充电请求的发出位置。

对于每个充电站cⁱ来说，其相对于充电请求q_t的环境状态信息可以视为充电站cⁱ的观察，包括表征该充电站cⁱ的信息、表征充电请求q_t与该充电站cⁱ之间的关联性的信息。作为示例，对于充电请求q_t，充电站cⁱ的环境状态信息包括：当前的时间T_t；充电站cⁱ现在的空闲充电位数量；充电站cⁱ附近未来预设时间段(例如，15分钟)的充电请求数量(可以使用训练好的预测模型来预测未来的充电请求数量)；从当前充电请求位置到充电站cⁱ的估计旅行时间；充电站cⁱ的充电功率；当前cⁱ的电费单价；正在前往cⁱ的充电汽车数量(可通过充电平台应用获取)。

步骤703，对于充电站集合中的每个充电站，通过该充电站对应的训练后的信息调整模型，根据该充电站对应的环境状态信息，确定该充电站对于充电请求的目标运营信息。

本实施例中，对于充电站集合中的每个充电站，上述执行主体可以通过该充电站对应的训练后的信息调整模型，根据该充电站对应的环境状态信息，确定该充电站对于充电请求的目标运营信息。其中，信息调整模型在充电站集合中的充电站之间感知彼此的环境状态信息的基础上，基于深度确定性策略梯度算法进行多智能体强化学习得到。具体的，信息调整模型由上述实施例200、600训练得到。

作为示例，对于目标充电站cⁱ∈C，根据自身的环境状态信息和信息调整模型u，并行的产生实时的目标运营信息：

其中，动作即为充电站cⁱ为q_t实时产生的目标运营信息。

步骤704，展示充电站集合中的每个充电站对于充电请求的目标运营信息。

本实施例中，上述执行主体可以展示充电站集合中的每个充电站对于充电请求的目标运营信息。

作为示例，可以通过充电平台向发出充电请求的用户展示充电站集合中的每个充电站对于充电请求的目标运营信息。

步骤705，接收选择指令，并根据选择指令从充电站集合中确定出目标充电站。

作为示例，发出充电请求的用户可以根据所展示的各充电站的目标运营信息，选择合适的充电站作为目标充电站，并通过触摸、点击等动作指令、语音指令等方式发出选择指令，进而上述执行主体可以根据选择指令确定目标充电站。

在确定该目标充电站之后，上述执行主体还可以基于导航应用进行从当前位置待目标充电站的导航操作。

本实施例中，通过训练后的信息调整模型为充电站实时的确定目标运营信息，提高了目标运营信息的实时性和合理性，同时，提高了充电站集合中的充电站之间的协调性，有助于解决充电站之间的充电不协调问题，提高了充电站的利用率。

继续参考图8，作为对上述各图所示方法的实现，本公开提供了一种充电站的信息调整模型的训练装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图8所示，充电站的信息调整模型的训练装置800包括：第一确定单元801，被配置成获取充电请求，并确定充电站集合中的每个充电站对应的环境状态信息；第二确定单元802，被配置成通过初始策略网络，根据充电站集合中的每个充电站对应的环境状态信息，确定充电站集合中的每个充电站对于充电请求的目标运营信息；第三确定单元803，被配置成通过初始价值网络，根据充电站集合中的每个充电站对应的环境状态信息和目标运营信息，确定充电请求对应的累计奖励期望；训练单元804，被配置成采用深度确定性策略梯度算法，训练初始策略网络和初始价值网络，得到训练后的策略网络和价值网络，其中，在训练过程中，通过时间差分方法更新初始价值网络，以最大化充电请求对应的累计奖励期望为目标更新初始策略网络；第四确定单元805，被配置成将训练后的策略网络，确定为充电站集合中的每个充电站对应的信息调整模型。

在本实施例的一些可选的实现方式中，第三确定单元803，进一步被配置成：通过智能体池化模块，根据充电站集合中的每个充电站对应的环境状态信息和目标运营信息，确定表征充电站集合中的所有充电站的集成表示信息；通过初始价值网络，根据集成表示信息，确定充电请求对应的累计奖励期望。

在本实施例的一些可选的实现方式中，第三确定单元803，进一步被配置成：通过映射向量，将充电站集合中的每个充电站对应的环境状态信息和目标运营信息，映射为表征充电站的重要性的分数特征；根据分数特征，从充电站集合中确定出预设数量个充电站，并确定预设数量个充电站对应的环境状态信息、目标运营信息和分数特征；归一化预设数量个充电站对应的分数特征，得到门控向量；根据预设数量个充电站对应的环境状态信息、目标运营信息和门控向量，确定门控特征；根据门控特征，确定充电站集合中的所有充电站的集成表示信息。

在本实施例的一些可选的实现方式中，训练单元804，进一步被配置成：通过时间差分方法确定初始价值网络对应的第一损失；通过自监督对比学习方法确定智能体池化模块对应的第二损失；根据第一损失和第二损失，更新初始价值网络和智能体池化模块；以最大化充电请求对应的累计奖励期望为目标更新初始策略网络。

在本实施例的一些可选的实现方式中，训练单元804，进一步被配置成：对于联合特征中的第一子集，通过智能体池化模块确定第一集成表示信息，其中，联合特征中包括充电站集合中的每个充电站对应的环境状态信息和目标运营信息；对于联合特征中的第二子集，通过智能体池化模块确定第二集成表示信息；对于与充电请求不同的其他充电请求对应的联合特征中的第三子集，通过智能体池化模块确定第三集成表示信息；将根据第一集成表示信息、第二集成表示信息和第三集成表示信息确定的自监督对比学习损失，作为第二损失。

在本实施例的一些可选的实现方式中，训练单元804，进一步被配置成：通过预设奖励函数，确根据充电请求对应的充电对象的充电行为，确定奖励信息，其中，充电站集合中的每个充电站共享奖励信息，预设奖励函数对于不同充电行为的奖励不同；通过时间差分算法，根据充电请求对应的累计奖励期望、充电请求对应的奖励和充电请求的下一充电请求对应的累计奖励期望，确定初始价值网络对应的第一损失。

本实施例中，提供了一种充电站的信息调整模型的训练装置，以充电站为智能体，基于深度确定性策略梯度算法进行多智能体强化学习，训练得到可以实时确定目标运营信息的策略网络作为信息调整模型，提高了充电站确定目标运营信息的实时性和合理性；在模型训练阶段，以最大化充电站集合整体的累计奖励为目标，让智能体之间能够感知彼此和整个环境信息，提高了充电站集合中的充电站之间的协调性，有助于解决充电站之间的充电不协调问题，提高了充电站的利用率。

继续参考图9，作为对上述各图所示方法的实现，本公开提供了一种充电站的选择装置的一个实施例，该装置实施例与图7所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图9所示，充电站的选择装置900包括：获取单元901，被配置成获取充电请求；第五确定单元902，被配置成确定充电站集合中的每个充电站对应的环境状态信息；第六确定单元903，被配置成对于所述充电站集合中的每个充电站，通过该充电站对应的、训练后的信息调整模型，根据该充电站对应的环境状态信息，确定该充电站对于充电请求的目标运营信息。其中，信息调整模型在充电站集合中的充电站之间感知彼此的环境状态信息的基础上，基于深度确定性策略梯度算法进行多智能体强化学习得到；展示单元904，被配置成展示充电站集合中的每个充电站对于充电请求的目标运营信息；接收单元905，被配置成接收选择指令，并根据选择指令从充电站集合中确定出目标充电站。

本实施例中，通过训练后的信息调整模型为充电站实时地确定目标运营信息，提高了目标运营信息的实时性和合理性，同时，提高了充电站集合中的充电站之间的协调性，有助于解决充电站之间的充电不协调问题，提高了充电站的利用率。

根据本公开的实施例，本公开还提供了一种电子设备，该电子设备包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，该指令被至少一个处理器执行，以使至少一个处理器执行时能够实现上述任意实施例所描述的充电站的信息调整模型的训练方法、充电站的选择方法。

根据本公开的实施例，本公开还提供了一种可读存储介质，该可读存储介质存储有计算机指令，该计算机指令用于使计算机执行时能够实现上述任意实施例所描述的充电站的信息调整模型的训练方法、充电站的选择方法。

本公开实施例提供了一种计算机程序产品，该计算机程序在被处理器执行时能够实现上述任意实施例所描述的充电站的信息调整模型的训练方法、充电站的选择方法。

图10示出了可以用来实施本公开的实施例的示例电子设备1000的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图10所示，设备1000包括计算单元1001，其可以根据存储在只读存储器(ROM)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(RAM)1003中的计算机程序，来执行各种适当的动作和处理。在RAM 1003中，还可存储设备1000操作所需的各种程序和数据。计算单元1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。

设备1000中的多个部件连接至I/O接口1005，包括：输入单元1006，例如键盘、鼠标等；输出单元1007，例如各种类型的显示器、扬声器等；存储单元1008，例如磁盘、光盘等；以及通信单元1009，例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理，例如充电站的信息调整模型的训练方法。例如，在一些实施例中，充电站的信息调整模型的训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1008。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序加载到RAM 1003并由计算单元1001执行时，可以执行上文描述的充电站的信息调整模型的训练方法的一个或多个步骤。备选地，在其他实施例中，计算单元1001可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行充电站的信息调整模型的训练方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决传统物理主机与虚拟专用服务器(VPS，Virtual Private Server)服务中存在的管理难度大，业务扩展性弱的缺陷；也可以为分布式系统的服务器，或者是结合了区块链的服务器。

根据本公开实施例的技术方案，提供了一种充电站的信息调整模型的训练方法，以充电站为智能体，基于深度确定性策略梯度算法进行多智能体强化学习，训练得到可以实时确定目标运营信息的策略网络作为信息调整模型，提高了充电站确定目标运营信息的实时性和合理性；在模型训练阶段，以最大化充电站集合整体的累计奖励为目标，让智能体之间能够感知彼此和整个环境信息，提高了充电站集合中的充电站之间的协调性，有助于解决充电站之间的充电不协调问题，提高了充电站的利用率。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开提供的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种充电站的信息调整模型的训练方法，包括：

获取充电请求，并确定充电站集合中的每个充电站对应的环境状态信息；

通过初始策略网络，根据所述充电站集合中的每个充电站对应的环境状态信息，确定所述充电站集合中的每个充电站对于所述充电请求的目标运营信息；

通过初始价值网络，根据所述充电站集合中的每个充电站对应的环境状态信息和目标运营信息，确定所述充电请求对应的累计奖励期望；

采用深度确定性策略梯度算法，训练所述初始策略网络和所述初始价值网络，得到训练后的策略网络和价值网络，其中，在训练过程中，通过时间差分方法更新所述初始价值网络，以最大化充电请求对应的累计奖励期望为目标更新所述初始策略网络；

将所述训练后的策略网络，确定为所述充电站集合中的每个充电站对应的信息调整模型；

其中，所述采用深度确定性策略梯度算法，训练所述初始策略网络和所述初始价值网络，包括：

通过所述时间差分方法确定所述初始价值网络对应的第一损失；

通过自监督对比学习方法确定智能体池化模块对应的第二损失，其中，所述智能体池化模块用于根据所述充电站集合中的每个充电站对应的环境状态信息和目标运营信息，确定表征所述充电站集合中的所有充电站的集成表示信息；

根据所述第一损失和所述第二损失，更新所述初始价值网络和所述智能体池化模块；

以最大化充电请求对应的累计奖励期望为目标更新所述初始策略网络。

2.根据权利要求1所述的方法，其中，所述通过初始价值网络，根据所述充电站集合中的每个充电站对应的环境状态信息和目标运营信息，确定所述充电请求对应的累计奖励期望，包括：

通过智能体池化模块，根据所述充电站集合中的每个充电站对应的环境状态信息和目标运营信息，确定表征所述充电站集合中的所有充电站的集成表示信息；

通过所述初始价值网络，根据所述集成表示信息，确定所述充电请求对应的累计奖励期望。

3.根据权利要求2所述的方法，其中，所述通过智能体池化模块，根据所述充电站集合中的每个充电站对应的环境状态信息和目标运营信息，确定表征所述充电站集合中的所有充电站的集成表示信息，包括：

通过映射向量，将所述充电站集合中的每个充电站对应的环境状态信息和目标运营信息，映射为表征充电站的重要性的分数特征；

根据所述分数特征，从所述充电站集合中确定出预设数量个充电站，并确定所述预设数量个充电站对应的环境状态信息、目标运营信息和分数特征；

归一化所述预设数量个充电站对应的分数特征，得到门控向量；

根据所述预设数量个充电站对应的环境状态信息、目标运营信息和门控向量，确定门控特征；

根据所述门控特征，确定所述充电站集合中的所有充电站的集成表示信息。

4.根据权利要求1所述的方法，其中，所述通过自监督对比学习方法确定所述智能体池化模块对应的第二损失，包括：

对于联合特征中的第一子集，通过所述智能体池化模块确定第一集成表示信息，其中，所述联合特征中包括所述充电站集合中的每个充电站对应的环境状态信息和目标运营信息；

对于所述联合特征中的第二子集，通过所述智能体池化模块确定第二集成表示信息；

对于与所述充电请求不同的其他充电请求对应的联合特征中的第三子集，通过所述智能体池化模块确定第三集成表示信息；

将根据所述第一集成表示信息、所述第二集成表示信息和所述第三集成表示信息确定的自监督对比学习损失，作为所述第二损失。

5.根据权利要求1所述的方法，其中，所述通过所述时间差分方法确定所述初始价值网络对应的第一损失，包括：

通过预设奖励函数，确根据所述充电请求对应的充电对象的充电行为，确定奖励信息，其中，所述充电站集合中的每个充电站共享所述奖励信息，所述预设奖励函数对于不同充电行为的奖励不同；

通过所述时间差分方法，根据所述充电请求对应的累计奖励期望、所述充电请求对应的奖励和所述充电请求的下一充电请求对应的累计奖励期望，确定所述初始价值网络对应的第一损失。

6.一种充电站的选择方法，包括：

获取充电请求；

确定充电站集合中的每个充电站对应的环境状态信息；

对于所述充电站集合中的每个充电站，通过该充电站对应的、训练后的信息调整模型，根据该充电站对应的环境状态信息，确定该充电站对于所述充电请求的目标运营信息，其中，所述信息调整模型通过权利要求1-5中任一项训练得到；

展示所述充电站集合中的每个充电站对于所述充电请求的目标运营信息；

接收选择指令，并根据所述选择指令从所述充电站集合中确定出目标充电站。

7.一种充电站的信息调整模型的训练装置，包括：

第一确定单元，被配置成获取充电请求，并确定充电站集合中的每个充电站对应的环境状态信息；

第二确定单元，被配置成通过初始策略网络，根据所述充电站集合中的每个充电站对应的环境状态信息，确定所述充电站集合中的每个充电站对于所述充电请求的目标运营信息；

第三确定单元，被配置成通过初始价值网络，根据所述充电站集合中的每个充电站对应的环境状态信息和目标运营信息，确定所述充电请求对应的累计奖励期望；

训练单元，被配置成采用深度确定性策略梯度算法，训练所述初始策略网络和所述初始价值网络，得到训练后的策略网络和价值网络，其中，在训练过程中，通过时间差分方法更新所述初始价值网络，以最大化充电请求对应的累计奖励期望为目标更新所述初始策略网络；

第四确定单元，被配置成将所述训练后的策略网络，确定为所述充电站集合中的每个充电站对应的信息调整模型；

其中，所述训练单元，进一步被配置成：

通过所述时间差分方法确定所述初始价值网络对应的第一损失；通过自监督对比学习方法确定智能体池化模块对应的第二损失，其中，所述智能体池化模块用于根据所述充电站集合中的每个充电站对应的环境状态信息和目标运营信息，确定表征所述充电站集合中的所有充电站的集成表示信息；根据所述第一损失和所述第二损失，更新所述初始价值网络和所述智能体池化模块；以最大化充电请求对应的累计奖励期望为目标更新所述初始策略网络。

8.根据权利要求7所述的装置，其中，所述第三确定单元，进一步被配置成：

通过智能体池化模块，根据所述充电站集合中的每个充电站对应的环境状态信息和目标运营信息，确定表征所述充电站集合中的所有充电站的集成表示信息；通过所述初始价值网络，根据所述集成表示信息，确定所述充电请求对应的累计奖励期望。

9.根据权利要求8所述的装置，其中，所述第三确定单元，进一步被配置成：

通过映射向量，将所述充电站集合中的每个充电站对应的环境状态信息和目标运营信息，映射为表征充电站的重要性的分数特征；根据所述分数特征，从所述充电站集合中确定出预设数量个充电站，并确定所述预设数量个充电站对应的环境状态信息、目标运营信息和分数特征；归一化所述预设数量个充电站对应的分数特征，得到门控向量；根据所述预设数量个充电站对应的环境状态信息、目标运营信息和门控向量，确定门控特征；根据所述门控特征，确定所述充电站集合中的所有充电站的集成表示信息。

10.根据权利要求7所述的装置，其中，所述训练单元，进一步被配置成：

对于联合特征中的第一子集，通过所述智能体池化模块确定第一集成表示信息，其中，所述联合特征中包括所述充电站集合中的每个充电站对应的环境状态信息和目标运营信息；对于所述联合特征中的第二子集，通过所述智能体池化模块确定第二集成表示信息；对于与所述充电请求不同的其他充电请求对应的联合特征中的第三子集，通过所述智能体池化模块确定第三集成表示信息；将根据所述第一集成表示信息、所述第二集成表示信息和所述第三集成表示信息确定的自监督对比学习损失，作为所述第二损失。

11.根据权利要求7所述的装置，其中，所述训练单元，进一步被配置成：

通过预设奖励函数，确根据所述充电请求对应的充电对象的充电行为，确定奖励信息，其中，所述充电站集合中的每个充电站共享所述奖励信息，所述预设奖励函数对于不同充电行为的奖励不同；通过所述时间差分方法，根据所述充电请求对应的累计奖励期望、所述充电请求对应的奖励和所述充电请求的下一充电请求对应的累计奖励期望，确定所述初始价值网络对应的第一损失。

12.一种充电站的选择装置，包括：

获取单元，被配置成获取充电请求；

第五确定单元，被配置成确定充电站集合中的每个充电站对应的环境状态信息；

第六确定单元，被配置成对于所述充电站集合中的每个充电站，通过该充电站对应的、训练后的信息调整模型，根据该充电站对应的环境状态信息，确定该充电站对于所述充电请求的目标运营信息，其中，所述信息调整模型通过权利要求7-11中任一项训练得到；

展示单元，被配置成展示所述充电站集合中的每个充电站对于所述充电请求的目标运营信息；

接收单元，被配置成接收选择指令，并根据所述选择指令从所述充电站集合中确定出目标充电站。

13.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。

14.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-6中任一项所述的方法。