CN112819215B

CN112819215B - 推荐策略训练方法、装置、电子设备及可读存储介质

Info

Publication number: CN112819215B
Application number: CN202110104070.1A
Authority: CN
Inventors: 张韦嘉; 刘浩
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-01-26
Filing date: 2021-01-26
Publication date: 2024-01-12
Anticipated expiration: 2041-01-26
Also published as: CN112819215A

Abstract

本公开公开了一种推荐策略训练方法、装置、电子设备及可读存储介质，涉及人工智能、自动驾驶、智能交通、深度学习等技术领域。具体实现方案为：获取训练数据；所述训练数据包括：多充电站中的每个充电站在充电请求出现时的状态信息；每个充电站针对所述充电请求的推荐动作值；以及，基于所述充电请求的推荐结果，每个充电站获取的奖励值；所述推荐结果是根据每个所述充电站针对所述充电请求的推荐动作值确定的；根据所述训练数据对每个充电站的推荐策略进行训练；所述推荐策略表征的是：所述充电站在所述充电请求出现时的状态信息，与所述充电站针对所述充电请求的推荐动作值之间的关系。根据本方案，可以提高充电站推荐策略的推荐效果。

Description

推荐策略训练方法、装置、电子设备及可读存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及人工智能、自动驾驶、智能交通、深度学习等技术。

背景技术

现有技术中，在对电动车的充电请求进行充电站智能推荐时，通常采用立即收益的推荐策略，基于距离或者价格等参考目标，推荐对当前电动车最优的充电站。

发明内容

本公开提供了一种推荐策略训练方法、装置、电子设备及可读存储介质。

根据本公开的一方面，提供了一种推荐策略训练方法，包括：

获取训练数据；其中，所述训练数据包括：多充电站中的每个所述充电站在充电请求出现时的状态信息；每个所述充电站针对所述充电请求的推荐动作值；以及，基于所述充电请求的推荐结果，每个所述充电站获取的奖励；所述推荐结果是根据每个所述充电站针对所述充电请求的推荐动作值确定的；

根据所述训练数据对每个所述充电站的推荐策略进行训练；其中，所述推荐策略表征的是：在所述充电请求发生时所述充电站的状态信息，与所述充电站针对所述充电请求的推荐动作之间的关系。

根据本公开的另一方面，提供了一种推荐策略训练装置，包括：

第一获取模块，用于获取训练数据；其中，所述训练数据包括：多充电站中的每个所述充电站在充电请求出现时的状态信息；每个所述充电站针对所述充电请求的推荐动作值；以及，基于所述充电请求的推荐结果，每个所述充电站获取的奖励值；所述推荐结果是根据每个所述充电站针对所述充电请求的推荐动作值确定的；

训练模块，用于根据所述训练数据对每个所述充电站的推荐策略进行训练；其中，所述推荐策略表征的是：在所述充电请求发生时所述充电站的状态信息，与所述充电站针对所述充电请求的推荐动作之间的关系。

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上所述的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行如上所述的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现如上所述的方法。

根据本申请的技术解决了现有充电站推荐策略的推荐效果较差的问题，提高了推荐效果。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是本公开实施例中的观察转移的示意图；

图2是本公开实施例提供的一种推荐策略训练方法的流程图；

图3是用来实现本公开实施例的推荐策略训练方法的训练装置的框图；

图4是用来实现本公开实施例的推荐策略训练方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例可以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。说明书以及权利要求中“和/或”表示所连接对象的至少其中之一。

为了便于理解本申请实施例，首先说明以下内容：

在强化学习中，智能体通过与环境不断的交互，可以学习一个策略以达到长期最大的收益。基于此，本申请提出了将每个充电站看成是一个智能体，并将充电站的连续推荐过程看成是多智能体联合动态序列决策问题，以采用多智能体强化学习的方式，获得针对充电请求的每个充电站的推荐策略。

充电请求：一个充电请求q_t被定义为预设时间中的第t个请求(也可称为第t步)。该预设时间比如为一天、一周等，本申请实施例中优选为一天。一个充电请求q_t可以包含以下至少之一的属性：q_t出现的位置l_t，q_t出现的时间T_t，以及q_t完成时的时间一个充电请求q_t完成，是指这个充电请求q_t成功充电，或者充电失败。

充电等待时间(cwt)：充电等待时间被定义为：从充电请求q_t发出的位置l_t到达目标充电站的旅行时间，与在目标充电站排队等待充电的时间之和。

充电价格(cp)：充电价格被定义为每千瓦时的单价，至少包括电费和服务费。

充电站推荐问题：考虑预设时间如一天的充电请求集合Q，本申请的目标是对于一天中每一个充电请求q_t∈Q进行充电站推荐，从而使得一天中所有充电请求Q的平均cwt和平均cp达到最小。

充电站cⁱ：本申请中将每一个充电站cⁱ∈C视作一个独立的智能体,其中C为所有相关充电站的集合，比如具q_t发出的位置l_t预设范围内的所有充电站集合。每个充电站cⁱ可以对一天中不断到来的充电请求进行及时的推荐决策。

充电站的状态信息充电站的状态信息/>也可称为充电站的观察。对于一个充电请求q_t，本申请中定义充电站cⁱ的状态信息/>可以包含以下至少之一的属性：a).充电站c_i的索引号；b).当前的时间，即充电请求q_t发出时的时间；c).充电站c_i在充电请求q_t发出时的空闲充电位的数量；d).充电站c_i在预设未来时间(如未来15分钟)的充电请求数量；其中在具体实现时可以使用训练好的预测模型来预测未来时间的充电请求数量；e).充电站c_i的充电功率；f).从充电请求q_t发出的位置l_t到充电站c_i的估计旅行时间；g).预计到达时间(Estimated Time of Arrival，ETA)时的CP。其中，对于充电站的集合C，/>表示所有相关充电站在第t步(充电请求q_t)的状态信息，N为集合C中充电站的数量。

推荐动作值给定充电站信息/>每个充电站cⁱ同时对应一个连续推荐动作值则充电请求q_t将被推荐到最大推荐动作/>值的充电站(推荐结果)。其中，定义所有充电站的联合推荐动作为/>N为相关充电站的数量。其中，/>bⁱ表示充电站cⁱ的推荐策略。

状态转移(观察转移)：状态转移被定义为从现在的充电请求q_t到其完成后的下一个请求q_t+j。结合图1进一步说明如下，考虑一个充电请求q_t在T_t(13:00)出现，这时每个充电站cⁱ基于其观察执行推荐/>然后选择出最大推荐值的充电站作为推荐的充电站；在充电请求q_t完成时间/>(13:18)之后，下一个充电请求q_t+j在T_t+j(13:20)出现，此时，充电站cⁱ的观察转移被定义为/>其中/>为充电请求q_t+j所对应的充电站cⁱ的观察。

奖励值：本申请中提出了一种延迟的奖励机制，当一个充电请求q_t成功充电时，环境可以返回负的CWT和负的CP作为每一个充电站此次联合推荐的奖励值。如果q_t的CWT超过预设时间比如45分钟，则可以认为充电请求q_t充电失败，否则充电成功。而如果q_t的CP超过预设价格比如XX元，则可以认为充电请求q_t充电失败，否则充电成功。此返回的两种更小的奖励值作为每个充电站在此次推荐的惩罚，奖励函数可表示为：

然而，从观察到/>会跨越多个滞后奖励，比如图1中的/>和/>因此本申请中可以计算累计的折扣奖励，通过将所有在T_t和T_t+j之间完成的充电请求的奖励以一种乘折扣因子的方式加和，公式表示为：

其中，γ为折扣因子，取值范围为[0,1]，可以基于实际需求设置。r为r^cwt或者r^cp。

请参见图2，图2是本公开实施例提供的一种推荐策略训练方法的流程图，该方法应用于电子设备，该电子设备比如为推荐平台、推荐系统等等。如图2所示，该方法包括如下步骤：

步骤21：获取训练数据。

本实施例中，训练数据可以包括：多充电站中的每个充电站在充电请求出现时的状态信息；每个充电站针对充电请求的推荐动作值；以及，基于充电请求的推荐结果，每个充电站获取的奖励值，即环境反馈给每个充电站的奖励值。该推荐结果是根据每个充电站针对充电请求的推荐动作值确定的。

需指出的，此训练数据中所涉及的充电请求、状态信息、推荐动作值以及奖励值的具体说明，可以参见上述内容，在此不再赘述。

步骤22：根据训练数据对每个充电站的推荐策略进行训练。

其中，充电站的推荐策略表征的是：在充电请求发生时该充电站的状态信息，与该充电站针对充电请求的推荐动作值之间的关系。即，针对某充电请求，根据充电站在该充电请求出现时的状态信息以及该充电站的推荐策略，可以确定出该充电站针对该充电请求的推荐动作值。

一种实施方式中，可以采用多智能体强化学习的方式，对每个充电站的推荐策略进行训练。

一种实施方式中，在训练推荐策略时，可以采用现有的黑盒优化技术，如贝叶斯优化、进化策略等，调整充电站的推荐策略，并针对每次调整后的结果，利用多智能体强化学习算法进行训练达到最优。该多智能体强化学习算法可以基于实际需求选取，对此不进行限制。

本实施例所述方案应用的是多智能体协作的场景，如地图客户端中多充电站协作以推荐最优充电站进行充电的场景。

本申请实施例的推荐策略训练方法，可以采用多智能体强化学习的方式，对每个充电站的推荐策略进行训练，从而实现从长期的角度去优化推荐策略，以协调电动车充电长期时空供需的不平衡，从长期全局的视角优化充电站充电方案，从而提高推荐效果，提升充电体验。

本申请实施例中，由于充电时通常考虑充电等待时间和/或充电价格，因此，环境反馈的奖励值的参考目标可以包括以下至少一项：充电等待时间CWT、充电价格CP。

由于强化学习的迭代过程通常包括若干次迭代，当前迭代动作的延时奖励值高不代表后续的迭代动作也会得到较高的延时奖励值，因而，在本申请实施例中，可以采用期望累计奖励值作为训练的收敛条件，以更准确地约束迭代过程。

可选的，上述根据训练数据对每个充电站的推荐策略进行训练的过程可以包括：根据训练数据以及预设的期望累计奖励函数，对每个充电站的推荐策略进行训练；其中，该训练的收敛条件为：最大化每个充电站的期望累计奖励值。这样，借助预设的期望累计奖励函数，可以更准确地约束迭代过程，高效率的得到所要的推荐策略。

可理解的，奖励函数r^cwt和r^cp的分布存在很大的差异，这导致训练时两种参考目标的收敛不同步，从而使得学到的推荐策略偏向于某一目标，而忽视了考虑其他目标。而且这两种目标并不总能兼容，有时更便宜的充电站往往需要更长的CWT，因此过度的优化某一目标往往会损害另一种目标。针对此问题，本申请提出了一种多评论家的神经网络架构，以自适应地调节不同目标优化的强度，从而实现多目标的同步收敛。

可选的，本申请实施例中提出的神经网络架构为期望累计奖励函数，分别为对应奖励r^cwt的和对应奖励r^cp的/>当环境的奖励值的参考目标为单一的充电等待时间或者充电价格时，可以根据/>或者/>来得到充电站的推荐策略。

可选的，当环境的奖励值的参考目标为单一的充电等待时间或者充电价格时，上述预设的期望累计奖励函数可以为：

其中，m表示充电等待时间CWT或者充电价格CP；E表示环境；b表示充电站cⁱ的待训练的推荐策略；表示充电站c_i在充电请求q_t时的状态信息；/>表示充电站c_i针对充电请求q_t的推荐动作值；/>表示从充电请求q_t到其完成后的下一个请求q_t+j所对应的累计折扣奖励值；T_t表示充电请求q_t的出现时间，T_t+j表示充电请求q_t+j的出现时间；/>表示充电请求q_t所对应的期望累计奖励值，/>表示充电请求q_t+j所对应的期望累计奖励值；γ表示折扣因子，取值为[0，1]。

也就是说，当仅考虑单一的充电等待时间时，对应的期望累计奖励函数为：

而当仅考虑单一的充电等待时间时，对应的期望累计奖励函数为：

一种可选的实施例中，对于上述的期望累计奖励函数可以通过梯度上升法计算。

本申请实施例中，为了量化不同目标收敛的程度，可以分别定义关于CWT和CP的目标推荐策略和/>对应的期望累计奖励函数为/>和/>以借助量化待训练的推荐策略和目标推荐策略之间的差距比率，来学习获得同时考虑CWT和CP时的推荐策略。其中，该目标推荐策略可以直接定义得到，也可以为通过强化学习，基于单一目标奖励即r^cwt或r^cp获得的最优推荐策略。

可选的，当环境的奖励值的参考目标包括充电等待时间CWT和充电价格CP时，上述预设的期望累计奖励函数为：

其中，表示充电站c_i在充电请求q_t时的状态信息。D表示装载训练数据的数据库。表示充电站c_i针对充电请求q_t的推荐动作值。/>表示在待训练的推荐策略b下，针对充电等待时间CWT的充电请求q_t所对应的期望累计奖励值。/>表示在待训练的推荐策略b下，针对充电价格CP的充电请求q_t所对应的期望累计奖励值。β_t表示的动态更新权重。β_t与第一差距比率和第二差距比率相关。第一差距比率与充电等待时间CWT相关，为待训练的推荐策略b和第一目标推荐策略之间的差距比率，第一目标推荐策略比如为基于r^cwt得到的最优推荐策略。第二差距比率与充电价格CP相关，为待训练的推荐策略b和第二目标推荐策略之间的差距比率，第二目标推荐策略比如为基于r^cp得到的最优推荐策略。

可选的，对于β_t可以如下所示：

其中，表示第一差距比率，/>表示第二差距比率。/>表示在第一目标推荐策略/>下，针对充电等待时间CWT的充电请求q_t所对应的期望累计奖励值。表示在第二目标推荐策略/>下，针对充电价格CP的充电请求q_t所对应的期望累计奖励值。

本申请实施例中，在训练得到每个所述充电站的推荐策略之后，即可使用训练得到推荐策略执行推荐操作。可选的，上述步骤21之后，本实施例中的方法还可以包括：

获取第一充电请求；该第一充电请求可表示为任一电动车的充电请求；

根据每个充电站在第一充电请求出现时的状态信息以及训练得到的每个充电站的推荐策略，确定每个充电站的推荐动作值，得到多个推荐动作值，并推荐多个推荐动作值中的最大推荐动作值对应的充电站。

这样，借助采用多智能体强化学习的方式训练得到的推荐策略，来进行充电站推荐，可以减少充电等待时长，和/或节省充电费用，从而更好的提升整个充电网络的效率和利用率。

请参见图3，图3是本公开实施例提供的一种推荐策略训练装置的结构示意图，如图3所示，该推荐策略训练装置30包括：

第一获取模块31，用于获取训练数据；其中，所述训练数据包括：多充电站中的每个所述充电站在充电请求出现时的状态信息；每个所述充电站针对所述充电请求的推荐动作值；以及，基于所述充电请求的推荐结果，每个所述充电站获取的奖励值；所述推荐结果是根据每个所述充电站针对所述充电请求的推荐动作值确定的；

训练模块32，用于根据所述训练数据对每个所述充电站的推荐策略进行训练；其中，所述推荐策略表征的是：所述充电站在所述充电请求出现时的状态信息，与所述充电站针对所述充电请求的推荐动作值之间的关系。

可选的，所述奖励值的参考目标包括以下至少一项：充电等待时间、充电价格。

可选的，所述根据所述训练数据对每个所述充电站的推荐策略进行训练，包括：

根据所述训练数据以及预设的期望累计奖励函数，对所述每个所述充电站的推荐策略进行训练；其中，所述训练的收敛条件为：最大化每个所述充电站的期望累计奖励值。

可选的，当所述奖励值的参考目标为充电等待时间或者充电价格时，所述预设的期望累计奖励函数为：

其中，m表示充电等待时间CWT或者充电价格CP；E表示环境；b表示充电站cⁱ的待训练的推荐策略；表示充电站c_i在充电请求q_t时的状态信息；/>表示充电站c_i针对充电请求q_t的推荐动作值；/>表示从充电请求q_t到其完成后的下一个请求q_t+j所对应的累计折扣奖励值；T_t表示充电请求q_t的出现时间，T_t+j表示充电请求q_t+j的出现时间；/>表示充电请求q_t所对应的期望累计奖励值，/>表示充电请求q_t+j所对应的期望累计奖励值；γ表示折扣因子。

可选的，当所述奖励的参考目标包括充电等待时间和充电价格时，所述预设的期望累计奖励函数为：

其中，表示充电站c_i在充电请求q_t时的状态信息；D表示装载训练数据的数据库；表示充电站c_i针对充电请求q_t的推荐动作值；/>表示在待训练的推荐策略b下，针对充电等待时间CWT的充电请求q_t所对应的期望累计奖励值；/>表示在待训练的推荐策略b下，针对充电价格CP的充电请求q_t所对应的期望累计奖励值；

β_t表示的动态更新权重；β_t与第一差距比率和第二差距比率相关；所述第一差距比率与充电等待时间CWT相关，为待训练的推荐策略b和第一目标推荐策略之间的差距比率；所述第二差距比率与充电价格CP相关，为待训练的推荐策略b和第二目标推荐策略之间的差距比率。

其中，表示所述第一差距比率，/>表示所述第二差距比率；/>表示在所述第一目标推荐策略下，针对充电等待时间CWT的充电请求q_t所对应的期望累计奖励值；/>表示在所述第二目标推荐策略下，针对充电价格CP的充电请求q_t所对应的期望累计奖励值。

可选的，推荐策略训练装置30还包括：

获取第一充电请求；

根据每个所述充电站在第一充电请求出现时的状态信息以及训练得到的每个所述充电站的推荐策略，确定每个所述充电站的推荐动作值，得到多个推荐动作值，并推荐所述多个推荐动作值中的最大推荐动作值对应的充电站。

可理解的，本公开实施例的推荐策略训练装置30，可以实现上述图2所示方法实施例中实现的各个过程，以及达到相同的有益效果，为避免重复，这里不再赘述。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图4示出了可以用来实施本申请的实施例的示例电子设备400的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图4所示，设备400包括计算单元401，其可以根据存储在只读存储器(ROM)402中的计算机程序或者从存储单元408加载到随机访问存储器(RAM)403中的计算机程序，来执行各种适当的动作和处理。在RAM 403中，还可存储设备400操作所需的各种程序和数据。计算单元401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。

设备400中的多个部件连接至I/O接口405，包括：输入单元406，例如键盘、鼠标等；输出单元407，例如各种类型的显示器、扬声器等；存储单元408，例如磁盘、光盘等；以及通信单元409，例如网卡、调制解调器、无线通信收发机等。通信单元409允许设备400通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元401可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元401的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元401执行上文所描述的各个方法和处理，例如推荐策略训练方法。例如，在一些实施例中，推荐策略训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元408。在一些实施例中，计算机程序的部分或者全部可以经由ROM 402和/或通信单元409而被载入和/或安装到设备400上。当计算机程序加载到RAM 403并由计算单元401执行时，可以执行上文描述的推荐策略训练方法的一个或多个步骤。备选地，在其他实施例中，计算单元401可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行推荐策略训练方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、互联网和区块链网络。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务(“Virtual Private Server”，或者简称为“VPS”)中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种推荐策略训练方法，包括：

获取训练数据；其中，所述训练数据包括：多充电站中的每个所述充电站在充电请求出现时的状态信息；每个所述充电站针对所述充电请求的推荐动作值；以及，基于所述充电请求的推荐结果，每个所述充电站获取的奖励值；所述推荐结果是根据每个所述充电站针对所述充电请求的推荐动作值确定的，其中，所述奖励值的参考目标包括以下至少一项：充电等待时间、充电价格；

根据所述训练数据对每个所述充电站的推荐策略进行训练；其中，所述推荐策略表征的是：所述充电站在所述充电请求出现时的状态信息，与所述充电站针对所述充电请求的推荐动作值之间的关系；

所述根据所述训练数据对每个所述充电站的推荐策略进行训练，包括：

根据所述训练数据以及预设的期望累计奖励函数，对所述每个所述充电站的推荐策略进行训练；其中，所述训练的收敛条件为：最大化每个所述充电站的期望累计奖励值，所述期望累计奖励函数为基于多评论家的神经网络架构构建的函数；

其中，在所述奖励值的参考目标包括充电等待时间CWT和充电价格CP，奖励值的参考目标为充电等待时间CWT时对应的目标推荐策略为，奖励值的参考目为充电价格CP时对应的目标推荐策略为/>的情况下，每个所述充电站的推荐策略基于，每个所述充电站的待训练的推荐策略和/>之间的第一差距比率，以及每个所述充电站的待训练的推荐策略和/>之间的第二差距比率共同确定。

2.根据权利要求1所述的方法，其中，当所述奖励值的参考目标为充电等待时间或者充电价格时，所述预设的期望累计奖励函数为：

其中，m表示充电等待时间CWT或者充电价格CP；E表示环境；b表示充电站/>的待训练的推荐策略；/>表示充电站/>在充电请求/>时的状态信息；/>表示充电站/>针对充电请求的推荐动作值；/>表示从充电请求/>到其完成后的下一个请求/>所对应的累计折扣奖励值；/>表示充电请求/>的出现时间，/>表示充电请求/>的出现时间；表示充电请求/>所对应的期望累计奖励值，/>表示充电请求/>所对应的期望累计奖励值；/>表示折扣因子。

3.根据权利要求1所述的方法，其中，当所述奖励的参考目标包括充电等待时间和充电价格时，所述预设的期望累计奖励函数为：其中，/>表示充电站/>在充电请求/>时的状态信息；D表示装载训练数据的数据库；/>表示充电站/>针对充电请求/>的推荐动作值；/>表示在待训练的推荐策略b下，针对充电等待时间CWT的充电请求/>所对应的期望累计奖励值；/>表示在待训练的推荐策略b下，针对充电价格CP的充电请求/>所对应的期望累计奖励值；/>表示/>的动态更新权重；/>与第一差距比率和第二差距比率相关；所述第一差距比率与充电等待时间CWT相关，为待训练的推荐策略b和第一目标推荐策略之间的差距比率；所述第二差距比率与充电价格CP相关，为待训练的推荐策略b和第二目标推荐策略之间的差距比率。

4.根据权利要求3所述的方法，其中，其中，/>表示所述第一差距比率，/>表示所述第二差距比率；/>表示在所述第一目标推荐策略下，针对充电等待时间CWT的充电请求/>所对应的期望累计奖励值；/>表示在所述第二目标推荐策略下，针对充电价格CP的充电请求/>所对应的期望累计奖励值。

5.根据权利要求1所述的方法，其中，所述根据所述训练数据对每个所述充电站的推荐策略进行训练之后，所述方法还包括：

获取第一充电请求；

6.一种推荐策略训练装置，包括：

训练模块，用于根据所述训练数据对每个所述充电站的推荐策略进行训练；其中，所述推荐策略表征的是：所述充电站在所述充电请求出现时的状态信息，与所述充电站针对所述充电请求的推荐动作值之间的关系；

其中，所述奖励值的参考目标包括以下至少一项：充电等待时间、充电价格；

所述训练模块具体用于：

7.根据权利要求6所述的装置，其中，当所述奖励值的参考目标为充电等待时间或者充电价格时，所述预设的期望累计奖励函数为：其中，m表示充电等待时间CWT或者充电价格CP；E表示环境；b表示充电站/>的待训练的推荐策略；/>表示充电站/>在充电请求/>时的状态信息；/>表示充电站/>针对充电请求/>的推荐动作值；/>表示从充电请求/>到其完成后的下一个请求/>所对应的累计折扣奖励值；/>表示充电请求/>的出现时间，/>表示充电请求/>的出现时间；表示充电请求/>所对应的期望累计奖励值，/>表示充电请求/>所对应的期望累计奖励值；/>表示折扣因子。

8.根据权利要求6所述的装置，其中，当所述奖励的参考目标包括充电等待时间和充电价格时，所述预设的期望累计奖励函数为：其中，/>表示充电站/>在充电请求/>时的状态信息；D表示装载训练数据的数据库；/>表示充电站/>针对充电请求/>的推荐动作值；/>表示在待训练的推荐策略b下，针对充电等待时间CWT的充电请求/>所对应的期望累计奖励值；/>表示在待训练的推荐策略b下，针对充电价格CP的充电请求/>所对应的期望累计奖励值；/>表示/>的动态更新权重；/>与第一差距比率和第二差距比率相关；所述第一差距比率与充电等待时间CWT相关，为待训练的推荐策略b和第一目标推荐策略之间的差距比率；所述第二差距比率与充电价格CP相关，为待训练的推荐策略b和第二目标推荐策略之间的差距比率。

9.根据权利要求8所述的装置，其中，其中，/>表示所述第一差距比率，表示所述第二差距比率；/>表示在所述第一目标推荐策略下，针对充电等待时间CWT的充电请求/>所对应的期望累计奖励值；/>表示在所述第二目标推荐策略下，针对充电价格CP的充电请求/>所对应的期望累计奖励值。

10.根据权利要求6所述的装置，还包括：

第二获取模块，用于获取第一充电请求；

确定模块，用于根据每个所述充电站在第一充电请求出现时的状态信息以及训练得到的每个所述充电站的推荐策略，确定每个所述充电站的推荐动作值，得到多个推荐动作值，

推荐模块，用于推荐所述多个推荐动作值中的最大推荐动作值对应的充电站。

11.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。

12.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1-5中任一项所述的方法。