CN112528160A

CN112528160A - 智能推荐、模型训练方法、装置、电子设备及存储介质

Info

Publication number: CN112528160A
Application number: CN202011561490.4A
Authority: CN
Inventors: 张韦嘉; 刘浩; 窦德景; 熊辉
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2021-03-19
Anticipated expiration: 2040-12-25
Also published as: CN112528160B; US20210383279A1

Abstract

本申请公开了一种智能推荐、模型训练方法、装置、电子设备及存储介质，涉及人工智能技术，可应用于智能推荐、智能交通技术，包括：确定对象推荐请求；根据多智能体策略模型以及所述对象推荐请求确定至少两个智能体对象与所述对象推荐请求匹配的对象执行动作；根据各所述对象执行动作确定目标对象执行动作；将所述对象推荐请求推荐至所述目标对象执行动作对应的目标智能体对象。本申请实施例能够实现对象推荐的全局优化目标。

Description

智能推荐、模型训练方法、装置、电子设备及存储介质

技术领域

本申请涉及数据处理领域，具体涉及人工智能技术，可应用于智能推荐、智能交通技术等领域。

背景技术

强化学习在动态序列决策问题中表现出极大的潜力和优越性。在强化学习中，智能体通过与环境进行交互，来学习一个策略以达到长期最优的收益。多智能体强化学习是多智能体系统研究领域中的一个重要分支，它将强化学习技术及博弈论等应用到多智能体系统，使得多个智能体能在更高维且动态的真实场景中通过交互和决策完成更错综复杂的任务，可以广泛应用于机器人系统、分布式决策、智能交通控制和商业智能管理等人工智能技术领域。

发明内容

本申请实施例提供了一种智能推荐、模型训练方法、装置、电子设备及存储介质，以实现对象推荐的全局优化目标。

第一方面，本申请实施例提供了一种智能推荐方法，包括：

确定对象推荐请求；

根据多智能体策略模型以及所述对象推荐请求确定至少两个智能体对象与所述对象推荐请求匹配的对象执行动作；

根据各所述对象执行动作确定目标对象执行动作；

将所述对象推荐请求推荐至所述目标对象执行动作对应的目标智能体对象。

第二方面，本申请实施例提供了一种模型训练方法，包括：

确定多智能体策略模型的值目标函数和策略目标函数；

根据所述值目标函数和所述策略目标函数训练所述多智能体策略模型；

其中，所述多智能体策略模型用于结合对象推荐请求确定至少两个智能体对象与对象推荐请求匹配的对象执行动作，以根据所述对象执行动作智能推荐智能体对象。

第三方面，本申请实施例提供了一种智能推荐装置，包括：

对象推荐请求确定模块，用于确定对象推荐请求；

对象执行动作确定模块，用于根据多智能体策略模型以及所述对象推荐请求确定至少两个智能体对象与所述对象推荐请求匹配的对象执行动作；

目标对象执行动作确定模块，用于根据各所述对象执行动作确定目标对象执行动作；

对象推荐请求推荐模块，用于将所述对象推荐请求推荐至所述目标对象执行动作对应的目标智能体对象。

第四方面，本申请实施例提供了一种模型训练装置，包括：

函数确定模块，用于确定多智能体策略模型的值目标函数和策略目标函数；

多智能体策略模型训练模块，用于根据所述值目标函数和所述策略目标函数训练所述多智能体策略模型；

其中，所述多智能体策略模型用于结合对象推荐请求确定至少两个智能体对象与对象推荐请求匹配的对象执行动作，以根据所述对象执行动作智能推荐目标智能体对象。

第五方面，本申请实施例提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行第一方面实施例所提供的智能推荐方法，或执行第二方面实施例所提供的模型训练方法。

第六方面，本申请实施例还提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行第一方面实施例所提供的智能推荐方法，或执行第二方面实施例所提供的模型训练方法。

第七方面，本申请实施例还提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现第一方面实施例所提供的智能推荐方法，或执行第二方面实施例所提供的模型训练方法。

第八方面，本申请实施例提供了一种车辆，包括车体，还包括第五方面实施例所提供的电子设备。

本申请实施例通过确定对象推荐请求之后，根据预先训练完成的多智能体策略模型以及对象推荐请求确定至少两个智能体对象与对象推荐请求匹配的对象执行动作，进而根据各对象执行动作确定目标对象执行动作，以将对象推荐请求推荐至目标对象执行动作对应的目标智能体对象，解决现有针对多目标对象进行智能推荐时只能实现局部最优的问题，实现了对象推荐的全局优化目标。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是本申请实施例提供的一种智能推荐方法的流程图；

图2是本申请实施例提供的一种智能推荐方法的流程图；

图3是本申请实施例提供的一种模型训练方法的流程图；

图4是本申请实施例提供的一种观察转移示例图；

图5是本申请实施例提供的一种智能推荐装置的结构图；

图6是本申请实施例提供的一种模型训练装置的结构图；

图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在一个示例中，图1是本申请实施例提供的一种智能推荐方法的流程图，本实施例可适用于利用多智能体强化学习方法进行智能推荐的情况，该方法可以由智能推荐装置来执行，该装置可以由软件和/或硬件的方式来实现，并一般可集成在电子设备中。该电子设备可以是服务器设备或其他计算机设备，还可以是其他智能终端，如车载终端等。相应的，如图1所示，该方法包括如下操作：

S110、确定对象推荐请求。

其中，对象推荐请求可以用于请求设备智能地推荐对象。

智能推荐方法进行智能推荐之前，首先需要确定对象推荐请求，以对该对象推荐请求智能化地推荐与其匹配的推荐对象。

在本申请实施例中，推荐对象可以是任意类型的，需要一定推荐算法从众多数量的对象中选择推荐目标的对象。推荐对象可以是实际存在的物体，也可以是虚拟资源。示例性的，推荐对象可以为充电站、公交站或银行点等。相应的，对象推荐请求可以用于请求推荐充电站、公交站或银行点等。可选的，推荐对象可以具有数量多且需要一定请求处理时间等特点。

S120、根据多智能体策略模型以及所述对象推荐请求确定至少两个智能体对象与所述对象推荐请求匹配的对象执行动作。

其中，多智能体策略模型可以是基于多智能体强化学习方法预先训练的一种策略模型，可用于确定智能体对象的执行动作。智能体对象也即推荐对象。对象执行动作也即智能体对象的执行动作。

在本申请实施例中，应用多智能体强化学习的方式对确定的对象推荐请求智能推荐匹配的推荐对象。可选的，可以将推荐对象抽象为多智能体强化学习方法中的智能体对象，每个智能体对象可以视作一个独立的智能体。假设将充电站作为推荐对象，则每个智能体对象可以代表一个充电站，智能体对象的数量与充电站的数量相同。

相应的，在确定对象推荐请求之后，可以根据多智能体策略模型以及对象推荐请求确定各智能体对象与对象推荐请求匹配的对象执行动作。可以理解的是，每个对象执行动作(也即action)来自于动作空间，对象执行动作对每个智能体对象所处的观察以及上一观察的奖励确定当前要执行什么动作。也即，每个智能体对象可以对应确定一个对象执行动作，不同的对象执行动作可以达到不同期望的收益。所谓收益可以理解为智能体对象在执行对象执行动作时，对整个智能体对象所在的群体带来的效益。

S130、根据各所述对象执行动作确定目标对象执行动作。

其中，目标对象执行动作可以是各对象执行动作中，能够实现全局最优收益的对象执行动作。

可以理解的是，各智能体对象可以针对当前的对象推荐请求确定多个不同的对象执行动作，每个对象执行动作可以达到不同的全局收益。因此，在得到多个对象执行动作之后，可以从各对象执行动作中确定能够实现全局最优收益的目标对象执行动作。

S140、将所述对象推荐请求推荐至所述目标对象执行动作对应的目标智能体对象。

其中，目标智能体对象可以是确定目标对象执行动作的智能体对象。

相应的，在确定目标对象执行动作之后，即可将对象推荐请求推荐至目标对象执行动作对应的目标智能体对象，以实现全局优化目标。

在本申请的一个可选实施例中，所述对象推荐请求可以为充电站推荐请求，所述智能体对象可以为充电站。

其中，充电站推荐请求也即充电请求。当设备需要充电时，可以发起充电请求，请求智能推荐设备为其推荐匹配的充电站。该智能推荐设备可以是服务器设备或其他计算机设备，本申请实施例对此并不进行限制。相应的，智能推荐设备接收到充电请求后，可以调用上述智能推荐算法，将各个可用的充电站作为智能体对象，对该充电请求推荐匹配的充电站。

在一个示例性的应用场景中，电动车一次充电往往需要数小时的时间。由于空间上的有限的充电资源，以及时空不平衡的充电需求，当充电设施供不应求时，便会造成长时间的充电等待，严重影响电动车司机的体验。

目前，现有技术方案中，关于充电站推荐的方法主要为基于贪心的方法，为电动车推荐最近距离，或者最短行驶时间的充电站。基于贪心的方法往往只能考虑立即收益。然而由于充电请求出现的时间和地点存在差别，且前后推荐决策之间存在很强的相互影响，贪心算法只考虑推荐决策短期内造成的影响，而忽视了长期供需的时空不平衡，将导致整个充电网络的优化陷入局部最优。

在强化学习中，智能体通过与环境进行交互，来学习一个策略以达到长期最优的收益。而如果把每个充电站看成是一个智能体对象，那么充电站的连续推荐过程则可以看成是一个多智能体联合动态序列决策问题。假设将电动车(如电动汽车)通过车载终端发起的充电请求作为对象推荐请求，将对电动车进行充电的充电站作为智能体对象。相应的，在智能推荐设备接收到充电请求后，可以对每个智能体对象根据其所在环境确定其对应的对象执行动作。可以理解的是，由于电动车距离各充电站的距离以及各充电站的充电等待时间等均存在区别，因此，不同智能体对象执行其对应的对象执行动作会给充电请求带来不同的充电等待时间。相应的，智能推荐设备可以从各对象执行动作中选择可以实现全局最大收益的目标对象执行动作，并将目标对象执行动作对应的目标智能体对象，也即目标充电站发送至车载终端。电动车可以根据车载终端接收到的目标充电站的信息行驶至目标充电站进行充电。利用上述智能推荐方法对充电请求推荐目标智能体对象，可以实现对一定时间内所有充电请求的全局的充电等待时间最小，也即为每个来自电动车司机的充电请求进行充电站推荐，进而实现从长期的角度优化充电站的推荐策略，以协调电动车充电长期时空供需的不平衡问题，从长期全局的视角优化整个充电网络，实现全局优化目标，同时能提升整个充电网络的效率。

需要说明的是，上述智能推荐方法也可以应用于车载终端中，车载终端接收到充电请求后，可以和服务器联动，获取智能推荐方法所需的资源，进而根据获取的资源在本地实施上述智能推荐方法，为充电请求推荐充电站。

在一个示例中，图2是本申请实施例提供的一种智能推荐方法的流程图，本申请实施例在上述各实施例的技术方案的基础上，进行了优化改进，给出了确定对象推荐请求、确定对象执行动作以及确定目标对象执行动作的多种具体可选的实现方式。

如图2所示的一种智能推荐方法，包括：

S210、获取所述对象推荐请求。

在确定对象推荐请求之前，可以首先获取对象推荐请求。在本申请实施例中，可以依次针对每个对象推荐请求进行智能推荐处理。可以理解的是，在实际应用中，以某个时间单位为基准的同一时间点可能会产生多个不同的对象推荐请求。因此，针对同一时间点产生的多个不同的对象推荐请求，需要确定各对象推荐请求的处理顺序。

S220、判断目标接收时间点是否存在多个对象推荐请求，若是，执行S230，否则，执行S260。

S230、对各所述对象推荐请求确定请求处理顺序。

S240、根据所述请求处理顺序对各所述对象推荐请求进行排序。

S250、根据请求排序结果确定当前处理的对象推荐请求。

其中，接收时间点可以是各对象推荐请求的接收时间。目标接收时间点可以是同时接收两个或两个以上的对象推荐请求的接收时间。可以理解的是，当接收时间点的基准时间单位不同时，对象推荐请求的接收情况也不同。例如，假设接收时间点以秒为单位，则两个对象推荐请求的接收时间分别为00:00.07和00:00.10时刻时，可以认为该两个对象推荐请求均在同一目标接收时间点00:00时刻接收。假设接收时间点以毫秒为单位，则两个对象推荐请求的接收时间分别为00:00.07和00:00.10时刻时，可以认为该两个对象推荐请求在不同的接收时间点接收。请求处理顺序可以是同一时间点内产生的各对象推荐请求对应的处理顺序。

当在目标接收时间点产生多个不同的对象推荐请求时，可以分别对各对象推荐请求确定请求处理顺序，以根据确定的请求处理顺序对各对象推荐请求进行排序，从而根据最终的请求排序结果确定当前处理的对象推荐请求。

可选的，可以根据各对象推荐请求更细化的接收时间确定请求处理顺序。示例性的，假设两个对象推荐请求的接收时间以秒为单位，如两个对象推荐请求的目标接收时间为00:00秒时刻，则可以将该目标接收时间进一步细化为毫秒时刻，以根据各对象推荐请求细化到毫秒时刻的生成时间确定请求处理顺序。例如，对象推荐请求1更细化的接收时间为00:00.07时刻，对象推荐请求2更细化的接收时间为00:00.10时刻，上述两个接收时间均为对象推荐请求的实际接收时间，则可以确定对象推荐请求1和对象推荐请求2的请求处理顺序为：对象推荐请求1-对象推荐请求2。也即，先将对对象推荐请求1作为当前处理的对象推荐请求进行智能推荐，再将对象推荐请求2作为当前处理的对象推荐请求进行智能推荐。

可选的，如果根据各对象推荐请求更细化的接收时间仍然难以确定请求处理顺序，则可以直接对各对象推荐请求按照随机排序的方式确定请求处理顺序。示例性的，如果对象推荐请求1和对象推荐请求2细化到毫秒甚至微秒的接收时间均相同，此时可以对对象推荐请求1和对象推荐请求2随机排序，如可以确定对象推荐请求1和对象推荐请求2的请求处理顺序为：对象推荐请求2-对象推荐请求1。

上述技术方案，通过对目标接收时间获取的多个对象推荐请求确定请求处理顺序，以确定当前处理的对象推荐请求，可以实现对各对象推荐请求的依次处理过程。

S260、获取各所述智能体对象根据所述对象推荐请求确定的智能体观察。

其中，智能体观察可以用于各智能体对象确定其对应的对象执行动作。

在确定了对象推荐请求后，进一步可以获取各智能体对象根据对象推荐请求和当前的环境确定的智能体观察，以根据智能体观察推断出当前环境的局部状态，并根据推断出的状态来确定下一步的对象执行动作。

S270、获取各所述智能体对象根据所述多智能体策略模型和所述智能体观察确定的所述对象执行动作。

具体的，智能体对象可以利用多智能体策略模型对确定的智能体观察进一步确定下一步的对象执行动作。由于智能体观察可以获取当前各智能体对象所在环境的局部状态信息，因此通过智能体观察和多智能体策略模型确定智能体对象的对象执行动作可以综合考虑各智能体对象之间复杂的相互作用，以实现各智能体对象之间的互助协作。

在本申请的一个可选实施例中，所述获取各所述智能体对象根据所述多智能体策略模型和所述智能体观察确定的所述对象执行动作，可以包括：基于如下公式获取各所述智能体对象根据所述多智能体策略模型和所述智能体观察确定的所述对象执行动作：

其中，

表示所述对象执行动作，

表示所述多智能体策略模型，θ^a为所述多智能体策略模型的模型参数，

表示所述智能体观察。

S280、将各所述对象执行动作中满足全局优化目标的对象执行动作确定为所述目标对象执行动作。

其中，满足全局优化目标的对象执行动作可以是各对象执行动作中，动作值最大的对象执行动作。

在本申请实施例中，在得到各智能体对象对应的对象执行动作后，可以选择其中动作值最大的对象执行动作作为目标对象执行动作。也即，选择最大的

作为目标对象执行动作。

最大说明对象推荐请求和目标智能体对象最匹配，此时对象推荐方案带来的全局收益最大。

S290、将所述对象推荐请求推荐至所述目标对象执行动作对应的目标智能体对象。

上述技术方案，通过在确定当前处理的对象推荐请求后，获取各智能体对象根据对象推荐请求确定的智能体观察，以进一步获取各智能体对象根据多智能体策略模型和智能体观察确定的对象执行动作，从而从各对象执行动作中选择目标执行动作，并将对象推荐请求推荐至目标对象执行动作对应的目标智能体对象，可以实现对象推荐的全局优化目标。

在一个示例中，图3是本申请实施例提供的一种模型训练方法的流程图，本实施例可适用于训练多智能体策略模型的情况，该方法可以由模型训练装置来执行，该装置可以由软件和/或硬件的方式来实现，并一般可集成在电子设备中。该电子设备可以是计算机设备或服务器设备等。相应的，如图3所示，该方法包括如下操作：

S310、确定多智能体策略模型的值目标函数和策略目标函数。

在本申请实施例中，多智能体策略模型主要包括两种目标，即策略目标和值目标，因此，在训练多智能体策略模型时，首先要确定多智能体策略模型的值目标函数和策略目标函数。

在本申请的一个可选实施例中，所述确定多智能体策略模型的策略目标函数，可以包括：基于如下公式确定多智能体策略模型的策略目标函数：

其中，L_A(θ^a)表示所述策略目标函数，θ^a表示策略目标神经网络的网络参数，t和t′表示对象推荐请求的编号，

表示期望，

表示概率比值，

表示优势函数，clip()表示裁剪函数，∈表示处于区间[0，1]的数值，i和j表示自然数，R_t′：t和R_t：t+j表示累计的折扣奖励，γ表示折扣因子，T_t和T_t′表示所述对象推荐请求的发起时间，

表示第t′个对象推荐请求的完成时间，r(s_t′，u_t′)表示第t′个对象推荐请求对应的奖励，s_t′表示所有智能体对象在第t′步的状态，u_t′表示所有智能体对象在第t′步的联合动作。

其中，策略目标神经网络可以是用于训练多智能体策略模型的神经网络。在实际训练过程中，可以将上述策略目标函数作为策略目标神经网络的损失函数，以通过训练策略目标神经网络的方式来学习策略目标函数中的多智能体策略模型

由于策略目标函数中包括未知的值目标函数，因此，在训练策略目标神经网络之前，首先需要获取值目标函数。

在本申请的一个可选实施例中，所述确定多智能体策略模型的值目标函数，可以包括：基于如下公式确定多智能体策略模型的值目标函数：

其中，L_C(θ^c)表示值目标神经网络的MSE(Mean Square Error，均方误差)损失函数，θ^c为所述值目标神经网络的模型参数，

知

表示所述值目标函数。

其中，值目标神经网络可以是用于训练值目标函数的神经网络。在训练策略目标神经网络之前，可以将上述MSE函数作为至目标神经网络的损失函数，并通过训练目标神经网络的方式首先学习值目标函数。在值目标神经网络训练成功后，值目标神经网络的模型参数θ^c固定，也即MSE损失函数确定，此时，至目标函数也相继确定。需要说明的是，为了保持智能推荐方法的可扩展性，所有智能体对象可以共享同一组策略目标神经网络和值目标神经网络的网络参数。

相应的，在获取上述值目标函数之后，可以将值目标函数代入至策略目标函数中。

S320、根据所述值目标函数和所述策略目标函数训练所述多智能体策略模型。

在一个具体的实例中，将用于请求推荐充电站的充电请求作为对象推荐请求，一个充电请求q_t被定义为一天中的第t个请求(也叫第t步)。一个充电请求q_t可以包含以下属性：q_t发出的位置l_t，q_t发出的时间T_t，以及q_t完成时的时间

在本示例中，一个请求完成，是指这个请求成功充电，或者充电失败。相应的，充电等待时间(以下简称CWT)可以被定义为从充电请求q_t发出的位置l_t，到达目标充电站的行驶时间，与在目标充电站排队等待充电的时间之和。相应的，充电站推荐问题可以抽象为：考虑一天的充电请求集合Q，全局优化目标为：对于一天中每一个充电请求q_t∈Q进行充电站的智能推荐，从而能使得一天中所有充电请求Q的总CWT最小。

相应的，将可以提供充电服务的充电站作为智能体。每一个充电站c_i∈C视作一个独立的智能体对象，其中C为所有充电站集合。对于一个充电请求q_t，可以定义智能体c_i的观察

为：a).当前的时间、b).充电站c_i现在的空闲充电位数量、c).充电站c_i附近未来15分钟的充电请求数量、d).从当前充电请求位置到充电站c_i的估计行驶时间，以及e).充电站c_i的充电功率。其中，在确定充电站c_i附近未来15分钟的充电请求数量时，可以使用训练好的预测模型来预测未来的充电请求数量。此外，还可以定义

表示所有智能体对象在第t步的状态。

相应的，给定当前观察

每个智能体对象cⁱ同时执行一个对象执行动作

则q_t将被推荐到最大动作

值的充电站。定义所有智能体对象的联合动作为

观察转移被定义为从现在的充电请求q_t到其完成后的下一个请求q_t+j。图4是本申请实施例提供的一种观察转移示例图，如图4所示，考虑一个充电请求q_t在T_t(13:00)出现，在这时每个智能体对象cⁱ基于其观察

执行对象执行动作

然后选择出最大动作值的智能体对象作为推荐的充电站。在充电请求完成时间

(13：18)之后，下一个充电请求q_t+j在T_t+j(13:20)出现。在这个示例中，智能体对象cⁱ的观察转移被定义为

其中

为q_t+j所对应的cⁱ的观察。

同时，本申请还提出了一种延迟的奖励机制，具体是：当一个充电请求q_t成功充电时，环境会返回负的CWT作为每一个智能体对象这次联合推荐的奖励。如果q_t的CWT超过45分钟，则认为这个q_t充电失败。那么环境将返回一个更小的奖励值(如-60等)作为每个智能体对象这次推荐的惩罚。然而，从观察

到

会跨越多个滞后奖励(比如图4中的

知

)，因此可以计算累计的折扣奖励，通过将所有在T_t和T_t+j之间完成的充电请求的奖励以一种乘折扣因子的方式加和，累计的折扣奖励的公式化表示为：

相应的，针对充电站的智能推荐问题即可利用上述参数定义进一步确定值目标函数和策略目标函数，从而根据值目标函数和策略目标函数训练多智能体策略模型

当多智能体策略模型

训练成功后，即可根据

确定各智能体对象的对象执行动作，从而根据各对象执行动作确定目标对象执行动作，以将对象推荐请求推荐至目标对象执行动作对应的目标智能体对象。

本申请实施例通过根据确定的值目标函数和策略目标函数训练多智能体策略模型，以在确定对象推荐请求之后，根据多智能体策略模型以及对象推荐请求确定至少两个智能体对象与对象推荐请求匹配的对象执行动作，进而根据各对象执行动作确定目标对象执行动作，以将对象推荐请求推荐至目标对象执行动作对应的目标智能体对象，解决现有针对多目标对象进行智能推荐时只能实现局部最优的问题，实现了对象推荐的全局优化目标。

在一个示例中，图5是本申请实施例提供的一种智能推荐装置的结构图，本申请实施例可适用于利用多智能体强化学习方法进行智能推荐的情况，该装置通过软件和/或硬件实现，并具体配置于电子设备中。该电子设备可以是服务器设备或其他计算机设备等，还可以是其他智能终端，如车载终端等。

如图5所示的一种智能推荐装置500，包括：对象推荐请求确定模块510、对象执行动作确定模块520、目标对象执行动作确定模块530和对象推荐请求推荐模块540。其中，

对象推荐请求确定模块510，用于确定对象推荐请求；

对象执行动作确定模块520，用于根据多智能体策略模型以及所述对象推荐请求确定至少两个智能体对象与所述对象推荐请求匹配的对象执行动作；

目标对象执行动作确定模块530，用于根据各所述对象执行动作确定目标对象执行动作；

对象推荐请求推荐模块540，用于将所述对象推荐请求推荐至所述目标对象执行动作对应的目标智能体对象。

可选的，对象推荐请求确定模块510具体用于：获取所述对象推荐请求；在确定目标接收时间点存在多个所述对象推荐请求的情况下，对各所述对象推荐请求确定请求处理顺序；根据所述请求处理顺序对各所述对象推荐请求进行排序；根据请求排序结果确定当前处理的对象推荐请求。

可选的，对象执行动作确定模块520具体用于：获取各所述智能体对象根据所述对象推荐请求确定的智能体观察；获取各所述智能体对象根据所述多智能体策略模型和所述智能体观察确定的所述对象执行动作。

可选的，对象执行动作确定模块520具体用于：基于如下公式获取各所述智能体对象根据所述多智能体策略模型和所述智能体观察确定的所述对象执行动作：

其中，

表示所述对象执行动作，

表示所述智能体观察。

可选的，目标对象执行动作确定模块530具体用于：将各所述对象执行动作中满足全局优化目标的对象执行动作确定为所述目标对象执行动作。

可选的，所述对象推荐请求为充电站推荐请求，所述智能体对象为充电站。

上述智能推荐装置可执行本申请任意实施例所提供的智能推荐方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请任意实施例提供的智能推荐方法。

由于上述所介绍的智能推荐装置为可以执行本申请实施例中的智能推荐方法的装置，故而基于本申请实施例中所介绍的智能推荐方法，本领域所属技术人员能够了解本实施例的智能推荐装置的具体实施方式以及其各种变化形式，所以在此对于该智能推荐装置如何实现本申请实施例中的智能推荐方法不再详细介绍。只要本领域所属技术人员实施本申请实施例中智能推荐方法所采用的装置，都属于本申请所欲保护的范围。

在一个示例中，图6是本申请实施例提供的一种模型训练装置的结构图，本申请实施例可适用于训练多智能体策略模型，该装置通过软件和/或硬件实现，并具体配置于电子设备中。该电子设备可以是服务器设备或其他计算机设备等。

如图6所示的一种模型训练装置600，包括：函数确定模块610和多智能体策略模型训练模块620。其中，

函数确定模块610，用于确定多智能体策略模型的值目标函数和策略目标函数；

多智能体策略模型训练模块620，用于根据所述值目标函数和所述策略目标函数训练所述多智能体策略模型；

可选的，函数确定模块610具体用于：基于如下公式确定多智能体策略模型的策略目标函数：

表示期望，

表示概率比值，

表示第t′个对象推荐请求的完成时间，r()表示第t′个对象推荐请求对应的奖励，s_t′表示所有智能体对象在第t′步的状态，u_t′表示所有智能体对象在第t′步的联合动作。

可选的，函数确定模块610具体用于：基于如下公式确定多智能体策略模型的值目标函数：

其中，L_C(θ^c)表示值目标神经网络的均方误差MSE损失函数，θ^c为所述值目标神经网络的模型参数，

和

表示所述值目标函数。

在一个示例中，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图7所示，设备700包括计算单元701，其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序，来执行各种适当的动作和处理。在RAM 703中，还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

设备700中的多个部件连接至I/O接口705，包括：输入单元706，例如键盘、鼠标等；输出单元707，例如各种类型的显示器、扬声器等；存储单元708，例如磁盘、光盘等；以及通信单元709，例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理，例如智能推荐或模型训练方法。例如，在一些实施例中，智能推荐或模型训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时，可以执行上文描述的智能推荐或模型训练方法的一个或多个步骤。备选地，在其他实施例中，计算单元701可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行智能推荐或模型训练方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

在上述实施例的基础上，本申请实施例还提供了一种车辆，包括车体，还包括上述实施例所述的电子设备。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。