CN112465338A

CN112465338A - 一种充电桩分配方法及其相关设备

Info

Publication number: CN112465338A
Application number: CN202011337712.4A
Authority: CN
Inventors: 刘美亿
Original assignee: Neusoft Reach Automotive Technology Shenyang Co Ltd
Current assignee: Neusoft Reach Automotive Technology Shenyang Co Ltd
Priority date: 2020-11-25
Filing date: 2020-11-25
Publication date: 2021-03-09

Abstract

本申请公开了一种充电桩分配方法及其相关设备，该方法包括：在获取到至少一个目标车辆的当前状态数据和至少一个目标充电桩的当前充电数据之后，先将至少一个目标车辆的当前状态数据和至少一个目标充电桩的当前充电数据输入到强化学习模型，得到该强化学习模型输出的充电桩分配结果，以使该充电桩分配结果能够表示至少一个目标车辆与至少一个目标充电桩之间的匹配关系；再获取该至少一个目标车辆的充电反馈结果，并根据该至少一个目标车辆的充电反馈结果，更新该强化学习模型，并返回执行该获取至少一个目标车辆的当前状态数据和至少一个目标充电桩的当前充电数据以及后续步骤，直至达到预设停止条件。如此能够有效地提高充电桩分配合理性。

Description

一种充电桩分配方法及其相关设备

技术领域

本申请涉及数据处理技术领域，尤其涉及一种充电桩分配方法及其相关设备。

背景技术

随着电动车辆的普及，电动车辆成为人们出行时的常用交通方式。其中，因电动车辆的电量有限，使得人们在电动车辆的使用过程中需要借助充电桩对该电动车辆进行充电。

在一些情况下，因充电桩是有限的，使得当大量电动车辆均需要利用充电桩进行充电时，易因充电桩分配不均匀，导致一些充电桩的排队车辆很多但是另一些充电桩几乎处于空闲状态，从而导致一些电动车辆的充电排队时长较长以及一些充电桩使用率较低。可见，如何对充电桩进行合理分配成为一项亟待解决的技术问题。

发明内容

为了解决现有技术中存在的以上技术问题，本申请提供一种充电桩分配方法及其相关设备，能够提高充电桩分配合理性，提高车辆的充电效率。

为了实现上述目的，本申请实施例提供的技术方案如下：

本申请实施例提供一种充电桩分配方法，所述方法包括：

获取至少一个目标车辆的当前状态数据和至少一个目标充电桩的当前充电数据；

将所述至少一个目标车辆的当前状态数据和至少一个目标充电桩的当前充电数据输入到强化学习模型，得到该强化学习模型输出的充电桩分配结果；其中，所述充电桩分配结果用于记录所述至少一个目标车辆与所述至少一个目标充电桩之间的匹配关系；

获取所述至少一个目标车辆的充电反馈结果；

根据所述至少一个目标车辆的充电反馈结果，更新所述强化学习模型，并继续执行所述获取至少一个目标车辆的当前状态数据和至少一个目标充电桩的当前充电数据以及后续步骤，直至达到预设停止条件。

在一种可能的实施方式下，所述根据所述至少一个目标车辆的充电反馈结果，更新所述强化学习模型，包括：

根据所述至少一个目标车辆的充电反馈结果，确定所述充电桩分配结果的奖惩结果；

根据所述充电桩分配结果的奖惩结果，更新所述强化学习模型。

在一种可能的实施方式下，若所述充电反馈结果包括充电等待时长和充电结果，则所述根据所述至少一个目标车辆的充电反馈结果，确定所述充电桩分配结果的奖惩结果，包括：

根据所述至少一个目标车辆的充电等待时长，确定第一奖励参数；

根据所述至少一个目标车辆的充电结果，确定至少一个已充电车辆和第二奖励参数；

根据所述至少一个已充电车辆的充电等待时长和所述至少一个已充电车辆的充电概率，确定第三奖励参数；

将所述第一奖励参数、所述第二奖励参数和所述第三奖励参数进行加权求和，得到所述充电桩分配结果的奖惩结果。

在一种可能的实施方式下，所述当前状态数据包括：当前工况、当前位置、当前剩余电量、当前充电次数、当前充电所需时长、当前行驶里程和当前行驶速度中的至少一个；和/或，所述当前充电数据包括当前排队车辆数量、当前排队车辆的充电总时长、当前供电效率和当前充电等候时长。

在一种可能的实施方式下，所述方法还包括：

获取所述至少一个目标车辆的充电参数；

所述将所述至少一个目标车辆的当前状态数据和至少一个目标充电桩的当前充电数据输入到强化学习模型，得到该强化学习模型输出的充电桩分配结果，包括：

将所述至少一个目标车辆的当前状态数据、所述至少一个目标车辆的充电参数和至少一个目标充电桩的当前充电数据输入到强化学习模型，得到该强化学习模型输出的充电桩分配结果。

在一种可能的实施方式下，所述方法还包括：

获取所述至少一个目标充电桩的供电参数；

将所述至少一个目标车辆的当前状态数据、至少一个目标充电桩的当前充电数据和所述至少一个目标充电桩的供电参数输入到强化学习模型，得到该强化学习模型输出的充电桩分配结果。

在一种可能的实施方式下，所述供电参数包括车辆充电等待时长、供电空闲时段和供电繁忙时段中的至少一个。

在一种可能的实施方式下，所述将所述至少一个目标车辆的当前状态数据和至少一个目标充电桩的当前充电数据输入到强化学习模型，得到所述强化学习模型输出的充电桩分配结果，包括：

将所述至少一个目标车辆的当前状态数据、所述至少一个目标车辆的历史状态数据、至少一个目标充电桩的当前充电数据和所述至少一个目标充电桩的历史充电数据输入到强化学习模型，得到所述强化学习模型输出的充电桩分配结果。

在一种可能的实施方式下，当目标区域包括所述至少一个目标车辆和所述至少一个目标充电桩时，所述预设停止条件为所述目标区域内在预设时间段内未出现触发充电请求的目标车辆；或者，所述预设停止条件为所述目标区域内触发充电请求的目标车辆的个数低于第一阈值。

本申请实施例还提供了一种充电桩分配装置，所述装置包括：

第一获取单元，用于获取至少一个目标车辆的当前状态数据和至少一个目标充电桩的当前充电数据；

分配确定单元，用于将所述至少一个目标车辆的当前状态数据和至少一个目标充电桩的当前充电数据输入到强化学习模型，得到该强化学习模型输出的充电桩分配结果；其中，所述充电桩分配结果用于记录所述至少一个目标车辆与所述至少一个目标充电桩之间的匹配关系；

第二获取单元，用于获取所述至少一个目标车辆的充电反馈结果；

模型更新单元，用于根据所述至少一个目标车辆的充电反馈结果，更新所述强化学习模型，并返回所述第一获取单元继续执行所述获取至少一个目标车辆的当前状态数据和至少一个目标充电桩的当前充电数据，直至达到预设停止条件。

本申请实施例还提供了一种设备，所述设备包括处理器以及存储器：

所述存储器用于存储计算机程序；

所述处理器用于根据所述计算机程序执行本申请实施例提供的充电桩分配方法的任一实施方式。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行本申请实施例提供的充电桩分配方法的任一实施方式。

与现有技术相比，本申请实施例至少具有以下优点：

本申请实施例提供的充电桩分配方法中，在获取到至少一个目标车辆的当前状态数据和至少一个目标充电桩的当前充电数据之后，先将至少一个目标车辆的当前状态数据和至少一个目标充电桩的当前充电数据输入到强化学习模型，得到该强化学习模型输出的充电桩分配结果，以使该充电桩分配结果能够表示至少一个目标车辆与至少一个目标充电桩之间的匹配关系；再获取该至少一个目标车辆的充电反馈结果，并根据该至少一个目标车辆的充电反馈结果，更新该强化学习模型，并返回执行该获取至少一个目标车辆的当前状态数据和至少一个目标充电桩的当前充电数据以及后续步骤，直至达到预设停止条件。

其中，因强化学习模型能够基于目标车辆的充电反馈结果进行强化学习，使得强化学习模型能够随着更新过程不断地完善充电桩分配策略，从而使得该强化学习模型确定的充电桩分配结果越来越合理，如此能够有效地提高充电桩分配合理性，从而提高车辆的充电效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本申请实施例提供的一种充电桩分配方法的流程图；

图2为本申请实施例提供的强化学习过程示意图；

图3为本申请实施例提供的一种充电桩分配装置的结构示意图；

图4为本申请实施例提供的一种设备的结构示意图。

具体实施方式

发明人在对充电桩分配的研究中发现，对于目标区域(例如，一个城市等)来说，因充电桩的数目是有限的，使得当目标区域内出现大量需要使用充电桩进行充电的电动车辆时，易因充电桩分配不均匀，导致一些充电桩的排队车辆很多但是另一些充电桩几乎处于空闲状态，从而导致一些电动车辆的充电排队时长较长，也导致一些充电桩使用率较低。

为了解决上述技术问题，本申请实施例提供了一种充电桩分配方法，该方法包括：获取至少一个目标车辆的当前状态数据和至少一个目标充电桩的当前充电数据；将该至少一个目标车辆的当前状态数据和至少一个目标充电桩的当前充电数据输入到强化学习模型，得到该强化学习模型输出的充电桩分配结果；获取该至少一个目标车辆的充电反馈结果；根据该至少一个目标车辆的充电反馈结果，更新该强化学习模型，并继续执行该获取至少一个目标车辆的当前状态数据和至少一个目标充电桩的当前充电数据以及后续步骤，直至达到预设停止条件。其中，该充电桩分配结果用于记录该至少一个目标车辆与该至少一个目标充电桩之间的匹配关系。

可见，因强化学习模型能够基于目标车辆的充电反馈结果进行强化学习，使得强化学习模型能够随着更新过程不断地完善充电桩分配策略，从而使得该强化学习模型确定的充电桩分配结果越来越合理，如此能够有效地提高充电桩分配合理性，从而提高车辆的充电效率。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

方法实施例

参见图1，该图为本申请实施例提供的一种充电桩分配方法的流程图。

本申请实施例提供的充电桩分配方法，包括S1-S6：

S1：获取至少一个目标车辆的当前状态数据和至少一个目标充电桩的当前充电数据。

其中，目标车辆是指位于目标区域内的电动车辆。另外，本申请实施例不限定目标车辆的个数，例如，目标车辆的个数可以根据目标区域内的电动车辆总数确定(例如，将目标区域内的电动车辆总数确定为目标车辆的个数)。

当前状态数据用于描述目标车辆在当前时刻所具有的状态信息；而且，本申请实施例不限定当前状态数据，例如，当前状态数据可以包括当前工况、当前位置、当前剩余电量、当前充电次数、当前充电所需时长、当前行驶里程和当前行驶速度中的至少一个。其中，当前工况用于描述目标车辆在当前时刻下所具有的工作状态(例如，车速大小、车灯是否打开等)。当前位置用于描述目标车辆在当前时刻下所处的地理位置。当前剩余电量是指目标车辆在当前时刻下所具有的剩余电量。当前充电次数是指截止当前时刻目标车辆在当天内的已充电次数。当前充电所需时长是指在当前时刻下将目标车辆充电至满电所需消耗的时长。当前行驶里程是指截止当前时刻目标车辆在当天内的已行驶里程。当前行驶速度在当前时刻下目标车辆的行驶速度。

目标充电桩是指目标区域内能够为电动车辆供电的充电桩。另外，本申请实施例不限定目标充电桩的个数，例如，目标充电桩的个数可以根据目标区域内的电动车辆充电桩总数确定(例如，将目标区域内的电动车辆充电桩总数确定为目标充电桩的个数)。

当前充电数据用于描述目标充电桩在当前时刻下所具有的充电状态。另外，本申请实施例不限定当前充电数据，例如，当前充电数据可以包括当前排队车辆数量、当前排队车辆的充电总时长、当前供电效率和当前充电等候时长。其中，当前排队车辆数量是指当前时刻下在目标充电桩前排队等待充电的车辆数目。当前排队车辆的充电总时长是指当前时刻下将在目标充电桩前排队等待充电的所有车辆充电至满电所需消耗的总时长。当前供电效率是指在当前时刻下目标充电桩的供电效率。当前充电等候时长是指截止当前时刻车辆在目标充电桩前平均等待时长。

需要说明的是，本申请实施例不限定当前供电效率，例如，当前供电效率可以根据目标充电桩在当前时刻之前一小时内完成充电车辆数确定。另外，本申请实施例也不限定当前充电等候时长，例如，当前充电等候时长可以根据在当前时刻之前一小时内在目标充电桩前排队等待车辆的平均等待时长确定。

基于上述内容可知，当目标区域包括N个目标车辆和M个目标充电桩时，可以获取该N个目标车辆的当前状态数据和该M个目标充电桩的当前充电数据，以便后续能够基于该N个目标车辆的当前状态数据和该M个目标充电桩的当前充电数据，确定该N个目标车辆与该M个目标充电桩之间的充电匹配结果。其中，N为正整数，M为正整数。

S2：将至少一个目标车辆的当前状态数据和至少一个目标充电桩的当前充电数据输入到强化学习模型，得到该强化学习模型输出的充电桩分配结果。

其中，强化学习模型能够通过与环境进行交互获得奖赏指导，而且强化学习模型是基于强化学习过程进行实施的。其中，对于强化学习过程(如图2所示)来说，当智能体(Agent)针对环境做出动作之后，该环境会针对该智能体的动作反馈奖赏结果，而且该环境还会更新该智能体的状态。

需要说明的是，若强化学习模型用于确定目标区域的充电桩分配结果，则在该强化学习模型的强化学习过程中，目标车辆可以作为图2中“智能体”，所有目标车辆和所有目标充电桩可以构成图2中“环境”，充电桩分配结果可以作为图2中“动作”，充电反馈结果可以作为图2中“状态”，下文“充电桩分配结果的奖惩结果”可以作为图2中“奖赏”。

另外，本申请实施例不限定强化学习模型，可以采用现有的或未来出现的任一种强化学习模型进行实施。

充电桩分配结果用于记录至少一个目标车辆与至少一个目标充电桩之间的匹配关系。也就是，充电桩分配结果可以记录为各个目标车辆分配的目标充电桩。

在一些情况下，目标车辆的充电参数(例如，充电效率等)也能够影响充电桩分配结果，故为了提高充电桩分配结果的准确性，本申请实施还提供了S2的一种可能的实施方式，其具体可以包括S2A1-S2A2：

S2A1：获取至少一个目标车辆的充电参数。

其中，充电参数用于描述目标车辆所具有的充电特征；而且，本申请实施例不限定充电参数，例如，充电参数可以包括充电速率。

需要说明的是，本申请实施例不限定S2A1的执行时间，可以在执行S2A2之前完成执行即可。另外，目标车辆的充电参数也无需在每轮充电桩分配过程中进行获取，只需每间隔预设第一时间段更新一次即可。

S2A2：将至少一个目标车辆的当前状态数据、至少一个目标车辆的充电参数和至少一个目标充电桩的当前充电数据输入到强化学习模型，得到该强化学习模型输出的充电桩分配结果。

基于上述S2A1至S2A2的相关内容可知，在获取到至少一个目标车辆的当前状态数据、该至少一个目标车辆的充电参数和至少一个目标充电桩的当前充电数据之后，可以将该至少一个目标车辆的当前状态数据、该至少一个目标车辆的充电参数和该至少一个目标充电桩的当前充电数据输入到强化学习模型，得到该强化学习模型输出的充电桩分配结果，以使该充电分配结果更准确。

在一些情况下，目标充电桩的供电参数(例如，车辆充电等待时长、供电空闲时段和供电繁忙时段)也能够影响充电桩分配结果，故为了提高充电桩分配结果的准确性，本申请实施还提供了S2的一种可能的实施方式，其具体可以包括S2B1-S2B2：

S2B1：获取所述至少一个目标充电桩的供电参数。

其中，供电参数用于描述目标充电桩所具有的供电特征。另外，本申请实施例不限定供电参数，例如，供电参数可以包括车辆充电等待时长、供电空闲时段和供电繁忙时段中的至少一个。

车辆充电等待时长用于描述目标车辆在目标充电桩前排队等候的平均时长，而且本申请实施例不限定车辆充电等待时长的获取方式，例如，可以根据目标充电桩的车辆历史等候时长，确定车辆充电等待时长(例如，将目标充电桩对应的车辆历史等候时长的平均值，确定为车辆充电等待时长)。

供电空闲时段用于描述目标车辆处于空闲状态的时间段。另外，本申请实施例不限定供电空闲时段的获取方式，例如，可以根据目标充电桩的历史空闲时间段，确定供电空闲时段(例如，将目标充电桩的历史空闲时间段的平均值，确定为供电空闲时段)。

供电繁忙时段用于描述目标车辆处于繁忙状态的时间段。另外，本申请实施例不限定供电繁忙时段的获取方式，例如，可以根据目标充电桩的历史繁忙时间段，确定供电繁忙时段(例如，将目标充电桩的历史繁忙时间段的平均值，确定为供电繁忙时段)。

需要说明的是，本申请实施例不限定S2B1的执行时间，可以在执行S2B2之前完成执行即可。另外，目标充电桩的供电参数也无需在每轮充电桩分配过程中进行获取，只需每间隔预设第二时间段更新一次即可。

S2B2：将至少一个目标车辆的当前状态数据、至少一个目标充电桩的当前充电数据和至少一个目标充电桩的供电参数输入到强化学习模型，得到该强化学习模型输出的充电桩分配结果。

基于上述S2B1至S2B2的相关内容可知，在获取到至少一个目标车辆的当前状态数据、至少一个目标充电桩的当前充电数据和至少一个目标充电桩的供电参数之后，可以将至少一个目标车辆的当前状态数据、至少一个目标充电桩的当前充电数据和至少一个目标充电桩的供电参数输入到强化学习模型，得到该强化学习模型输出的充电桩分配结果，以使该充电分配结果更准确。

另外，本申请实施例还提供了S2的另一种可能的实施方式，其具体可以包括S2C1-S2C3：

S2C1：获取至少一个目标车辆的充电参数。

需要说明的是，S2C1的内容与上文S2A1的内容相同，请参见上文S2A1。

S2C2：获取所述至少一个目标充电桩的供电参数。

需要说明的是，S2C2的内容与上文S2B1的内容相同，请参见上文S2B1。

S2C3：将至少一个目标车辆的当前状态数据、至少一个目标车辆的充电参数、至少一个目标充电桩的当前充电数据和至少一个目标充电桩的供电参数输入到强化学习模型，得到该强化学习模型输出的充电桩分配结果。

基于上述S2C1至S2C3的相关内容可知，在获取到至少一个目标车辆的当前状态数据、至少一个目标车辆的充电参数、至少一个目标充电桩的当前充电数据和至少一个目标充电桩的供电参数之后，可以将至少一个目标车辆的当前状态数据、至少一个目标车辆的充电参数、至少一个目标充电桩的当前充电数据和至少一个目标充电桩的供电参数输入到强化学习模型，得到该强化学习模型输出的充电桩分配结果，以使该充电分配结果更准确。

在一些情况下，为了能够进一步提高充电桩分配结果的准确性，还可以参考历史数据确定充电桩分配结果。基于此，本申请实施例还提供了S2的又一种可能的实施方式，其具体可以为：

将至少一个目标车辆的当前状态数据、至少一个目标车辆的历史状态数据、至少一个目标充电桩的当前充电数据和至少一个目标充电桩的历史充电数据输入到强化学习模型，得到强化学习模型输出的充电桩分配结果。

其中，历史状态数据用于描述目标车辆在历史时刻所具有的状态信息；而且，本申请实施例不限定历史状态数据，例如，历史状态数据可以包括历史充电效率、历史充电平均时长、历史剩余电量最小值、历史平均速度和历史充电参数中的至少一个。其中，历史充电效率用于描述目标车辆在历史时刻下的充电效率。历史充电平均时长用于描述目标车辆在历史时刻下充电所需时长的平均值。历史剩余电量最小值用于描述在历史时刻下对目标车辆进行充电时该目标车辆的剩余电量的平均值。历史平均速度用于描述目标车辆在历史时刻下的行驶速度平均值。历史充电参数用于描述目标车辆在历史时刻下的充电参数。

历史充电数据用于描述目标充电桩在历史时刻下所具有的充电状态。另外，本申请实施例不限定历史充电数据，例如，历史充电数据包括历史排队车辆数量、历史排队车辆的充电总时长、历史供电效率和当前充电等候时长和历史供电参数中的至少一个。其中，历史排队车辆数量是指历史时刻下在目标充电桩前排队等待充电的车辆数目。历史排队车辆的充电总时长是指历史时刻下将在目标充电桩前排队等待充电的所有车辆充电至满电所需消耗的总时长。历史供电效率是指在历史时刻下目标充电桩的供电效率。历史充电等候时长是指截止历史时刻车辆在目标充电桩前平均等待时长。历史供电参数用于描述目标充电桩在历史时刻下所具有的供电参数。

可见，在一些情况下，可以直接将至少一个目标车辆的当前状态数据以及历史状态数据、和至少一个目标充电桩的当前充电数据以及历史充电数据输入到强化学习模型，以使该强化学习模型能够基于这些当前数据以及历史数据确定并输出充电桩分配结果。其中，因充电桩分配结果是根据目标车辆的当前状态数据、目标车辆的历史状态数据、目标充电桩的当前充电数据和目标充电桩的历史充电数据确定的，使得该充电桩分配结果更准确。

在一些情况下，为了能够进一步提高充电桩分配结果的准确性，还可以参考历史数据及其统计数据确定充电桩分配结果。基于此，本申请实施例还提供了S2的再一种可能的实施方式，其具体可以为：

将至少一个目标车辆的当前状态数据、至少一个目标车辆的历史状态数据、至少一个目标车辆的统计数据、至少一个目标充电桩的当前充电数据、至少一个目标充电桩的历史充电数据和至少一个目标充电桩的统计数据输入到强化学习模型，得到强化学习模型输出的充电桩分配结果。

其中，目标车辆的统计数据是根据目标车辆的历史状态数据进行统计计算得到的。另外，本申请实施例不限定统计计算过程，可以根据应用场景预先设定。

目标充电桩的统计数据是根据目标充电桩的历史充电数据进行统计计算得到的。另外，本申请实施例不限定统计计算过程，可以根据应用场景预先设定。

可见，在一些情况下，可以先基于历史数据确定统计数据，再由强化学习模型基于当前数据、历史数据以及统计数据综合确定充电桩分配结果。例如，将至少一个目标车辆的当前状态数据、至少一个目标车辆的历史状态数据、至少一个目标车辆的统计数据、至少一个目标车辆的充电参数、至少一个目标充电桩的当前充电数据、至少一个目标充电桩的历史充电数据、至少一个目标充电桩的统计数据和至少一个目标充电桩的供电参数输入到强化学习模型，得到强化学习模型输出的充电桩分配结果。

基于上述S2的相关内容可知，在获取到至少一个目标车辆的当前状态数据和至少一个目标充电桩的当前充电数据之后，可以根据至少一个目标车辆的当前状态数据、至少一个目标充电桩的当前充电数据和强化学习模型，确定充电桩分配结果，以使该充电桩分配结果用于记录所述至少一个目标车辆与所述至少一个目标充电桩之间的匹配关系。例如，当目标区域包括N个目标车辆和M个目标充电桩时，可以将N个目标车辆的当前状态数据、N个目标车辆的充电参数、N个目标车辆的历史状态数据、M个目标充电桩的当前充电数据、M个目标充电桩的供电参数和M个目标充电桩的历史充电数据输入到强化学习模型，得到该强化学习模型输出的充电桩分配结果，以使该充电分配结果能够表示出N个目标车辆与M个目标充电桩之间的匹配关系，以便各个目标车辆能够前往与其相匹配的目标充电桩进行排队充电(例如，第i个目标车辆能够前往与该第i个目标车辆具有匹配关系的目标充电桩进行排队充电，i为正整数，i≤N)。

S3：判断是否达到预设停止条件，若是，则结束充电桩分配过程；若否，则执行S4-S5。

其中，预设停止条件可以预先设定。另外，本申请实施例不限定预设停止条件，例如，预设停止条件可以为目标区域内在预设时间段内未出现触发充电请求的目标车辆，也可以为目标区域内触发充电请求的目标车辆的个数低于第一阈值。

S4：获取至少一个目标车辆的充电反馈结果。

其中，充电反馈结果用于描述当目标区域内的各个目标车辆均按照充电桩分配结果进行目标充电桩选择之后产生的充电反馈信息。

另外，本申请实施例不限定充电反馈结果，例如，充电反馈结果可以包括充电等待时长和充电结果。其中，充电等待时长用于描述目标车辆在与其匹配的目标充电桩前排队等候的时长。充电结果用于描述目标车辆是否已成功完成充电。

需要说明的是，本申请实施例不限定S4的执行时间，可以在完成S3预设时长之后执行S4。

S5：根据至少一个目标车辆的充电反馈结果，更新强化学习模型，并返回执行S1。

本申请实施例不限定S5的实施方式，例如，在一种可能的实施方式中，S5具体可以包括S51-S52：

S51：根据至少一个目标车辆的充电反馈结果，确定充电桩分配结果的奖惩结果。

其中，充电桩分配结果的奖惩结果是指当目标区域内的目标车辆按照该充电桩分配结果进行充电桩选择时所产生的奖赏。

另外，本申请实施例不限定S51的实施方式，例如，在一种可能的实施方式下，若充电反馈结果包括充电等待时长和充电结果，则S51具体可以包括S511-S514：

S511：根据至少一个目标车辆的充电等待时长，确定第一奖励参数。

其中，第一奖励参数用于描述目标区域的全局排队等候时长；而且，本申请实施例不限定第一奖励参数的确定过程，例如，若目标区域内包括N个目标车辆，则可以将第1个目标车辆的充电等待时长至第N个目标车辆的充电等待时长进行加和，得到第一奖励参数。

S512：根据至少一个目标车辆的充电结果，确定至少一个已充电车辆和第二奖励参数。

其中，已充电车辆是指当目标区域内的各个目标车辆均按照充电桩分配结果进行目标充电桩选择之后能够成功完成充电的目标车辆。

第二奖励参数用于描述已充电车辆的个数。

基于上述S512的相关内容可知，当目标区域内包括N个目标车辆时，可以先根据第i个目标车辆的充电结果，判断第i个目标车辆是否已成功完成充电，以便在第i个目标车辆的充电结果表示第i个目标车辆已成功完成充电时将第i个目标车辆确定为已充电车辆且将第二奖励参数加1，并在第i个目标车辆的充电结果表示第i个目标车辆仍未充电时将第i个目标车辆确定为未充电车辆。其中，i为正整数，i≤N。需要说明的是，第二奖励参数的初始值为0。

S513：根据至少一个已充电车辆的充电等待时长和至少一个已充电车辆的充电概率，确定第三奖励参数。

其中，充电概率用于描述一个目标车辆到一个目标充电桩进行充电的可能性。另外，本申请实施例不限定充电概率的确定过程。

实际上，强化学习模型在确定充电桩分配结果的过程中会产生一个转移概率矩阵，该转移概率矩阵用于记录各个目标车辆与各个目标充电桩之间的匹配概率。基于此可知，可以根据强化学习模型生成的转移概率矩阵，确定已充电车辆的充电概率。为了便于理解，下面结合示例进行说明。

作为示例，当充电桩分配结果包括第k个目标车辆与第h个目标充电桩之间的匹配关系，且第k个目标车辆为已充电车辆时，可以先在强化学习模型生成的转移概率矩阵中查询第k个目标车辆与第h个目标充电桩之间的的匹配概率，再将第k个目标车辆与第h个目标充电桩之间的的匹配概率，确定为第k个目标车辆的充电概率。其中，k为正整数，且k≤N，h为正整数，h≤M。

需要说明的是，转移概率矩阵是强化学习模型生成的一个中间数据，而且本申请实施例不限定转移概率矩阵的获取方式，例如，可以利用任一种图匹配算法进行确定。

基于上述S513的相关内容可知，在获取到至少一个已充电车辆的充电等待时长和至少一个已充电车辆的充电概率之后，可以根据至少一个已充电车辆的充电等待时长和至少一个已充电车辆的充电概率确定第三奖励参数；而且该确定过程具体可以为：当已充电车辆的个数为G时，可以先将第g个已充电车辆的充电等待时长与第g个已充电车辆的充电概率进行相乘，得到第g个已充电车辆对应的奖惩值；g为正整数，g≤G。再将第1个已充电车辆对应的奖惩值和第G个已充电车辆对应的奖惩值的加和，确定为第三奖励参数。

S514：将第一奖励参数、第二奖励参数和第三奖励参数进行加权求和，得到充电桩分配结果的奖惩结果。

基于上述S511至S514的相关内容可知，在获取到充电反馈结果之后，可以先根据该充电反馈结果，确定第一奖励参数、第二奖励参数和第三奖励参数，再将将第一奖励参数、第二奖励参数和第三奖励参数进行加权求和，得到充电桩分配结果的奖惩结果。

S52：根据充电桩分配结果的奖惩结果，更新强化学习模型，并返回执行S1。

本申请实施例中，在获取到充电桩分配结果的奖惩结果之后，可以利用该充电桩分配结果的奖惩结果对强化学习模型进行更新，以使更新后的强化学习模型能够更合理的进行充电桩分配，并返回继续执行S1。

基于上述S51至S52的相关内容可知，在获取到目标区域内各个目标车辆的充电反馈结果之后，可以基于该各个目标车辆的充电反馈结果，确定充电桩分配结果的奖惩结果，再依据该充电桩分配结果的奖惩结果对强化学习模型进行更新，以使更新后的强化学习模型能够更合理的进行充电桩分配，并返回继续执行S1。

基于上述S1至S5的相关内容可知，在本申请实施例提供的充电桩分配方法中，在获取到至少一个目标车辆的当前状态数据和至少一个目标充电桩的当前充电数据之后，先将至少一个目标车辆的当前状态数据和至少一个目标充电桩的当前充电数据输入到强化学习模型，得到该强化学习模型输出的充电桩分配结果，以使该充电桩分配结果能够表示至少一个目标车辆与至少一个目标充电桩之间的匹配关系；再获取该至少一个目标车辆的充电反馈结果，并根据该至少一个目标车辆的充电反馈结果，更新该强化学习模型，并返回执行该获取至少一个目标车辆的当前状态数据和至少一个目标充电桩的当前充电数据以及后续步骤，直至达到预设停止条件。

基于上述方法实施例提供的充电桩分配方法，本申请实施例还提供了一种充电桩分配装置，下面结合附图进行解释和说明。

装置实施例

装置实施例提供的充电桩分配装置的技术详情，请参照上述方法实施例。

参见图3，该图为本申请实施例提供的一种充电桩分配装置的结构示意图。

本申请实施例提供的充电桩分配装置300，包括：

第一获取单元301，用于获取至少一个目标车辆的当前状态数据和至少一个目标充电桩的当前充电数据；

分配确定单元302，用于将所述至少一个目标车辆的当前状态数据和至少一个目标充电桩的当前充电数据输入到强化学习模型，得到该强化学习模型输出的充电桩分配结果；其中，所述充电桩分配结果用于记录所述至少一个目标车辆与所述至少一个目标充电桩之间的匹配关系；

第二获取单元303，用于获取所述至少一个目标车辆的充电反馈结果；

模型更新单元304，用于根据所述至少一个目标车辆的充电反馈结果，更新所述强化学习模型，并返回所述第一获取单元301继续执行所述获取至少一个目标车辆的当前状态数据和至少一个目标充电桩的当前充电数据，直至达到预设停止条件。

在一种可能的实施方式中，所述模型更新单元304，包括：

确定子单元，用于根据所述至少一个目标车辆的充电反馈结果，确定所述充电桩分配结果的奖惩结果；

更新子单元，用于根据所述充电桩分配结果的奖惩结果，更新所述强化学习模型。

在一种可能的实施方式中，所述充电反馈结果包括充电等待时长和充电结果；

所述确定子单元，具体用于：

在一种可能的实施方式中，所述当前状态数据包括：当前工况、当前位置、当前剩余电量、当前充电次数、当前充电所需时长、当前行驶里程和当前行驶速度中的至少一个；和/或，所述当前充电数据包括当前排队车辆数量、当前排队车辆的充电总时长、当前供电效率和当前充电等候时长。

在一种可能的实施方式中，所述充电桩分配装置300还包括：

第三获取单元，用于获取所述至少一个目标车辆的充电参数；

所述分配确定单元302，具体用于：

在一种可能的实施方式中，所述充电桩分配装置300还包括：

第四获取单元，用于获取所述至少一个目标充电桩的供电参数；

所述分配确定单元302，具体用于：

在一种可能的实施方式中，所述供电参数包括车辆充电等待时长、供电空闲时段和供电繁忙时段中的至少一个。

在一种可能的实施方式中，所述分配确定单元302，具体用于：将所述至少一个目标车辆的当前状态数据、所述至少一个目标车辆的历史状态数据、至少一个目标充电桩的当前充电数据和所述至少一个目标充电桩的历史充电数据输入到强化学习模型，得到所述强化学习模型输出的充电桩分配结果。

基于上述装置实施例提供的充电桩分配装置300的相关内容可知，对于充电桩分配装置300来说，在获取到至少一个目标车辆的当前状态数据和至少一个目标充电桩的当前充电数据之后，先将至少一个目标车辆的当前状态数据和至少一个目标充电桩的当前充电数据输入到强化学习模型，得到该强化学习模型输出的充电桩分配结果，以使该充电桩分配结果能够表示至少一个目标车辆与至少一个目标充电桩之间的匹配关系；再获取该至少一个目标车辆的充电反馈结果，并根据该至少一个目标车辆的充电反馈结果，更新该强化学习模型，并返回执行该获取至少一个目标车辆的当前状态数据和至少一个目标充电桩的当前充电数据以及后续步骤，直至达到预设停止条件。

基于上述方法实施例提供的充电桩分配方法，本申请实施例还提供了一种设备，下面结合附图进行解释和说明。

设备实施例

设备实施例提供的设备技术详情，请参照上述方法实施例。

参见图4，该图为本申请实施例提供的一种设备的结构示意图。

本申请实施例提供的设备400，包括：处理器401以及存储器402；

所述存储器402用于存储计算机程序；

所述处理器401用于根据所述计算机程序执行上述方法实施例提供的充电桩分配方法的任一实施方式。也就是说，处理器401用于执行以下步骤：

获取所述至少一个目标车辆的充电反馈结果；

在一种可能的实施方式下，所述当前状态数据包括：当前工况、当前位置和当前剩余电量中的至少一个；和/或，所述当前充电数据包括当前排队车辆数量。

在一种可能的实施方式下，还包括：

获取所述至少一个目标车辆的充电参数；

在一种可能的实施方式下，还包括：

获取所述至少一个目标充电桩的供电参数；

以上为本申请实施例提供的设备400的相关内容。

基于上述方法实施例提供的充电桩分配方法，本申请实施例还提供了一种计算机可读存储介质。

介质实施例

介质实施例提供的计算机可读存储介质的技术详情，请参照方法实施例。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行上述方法实施例提供的充电桩分配方法的任一实施方式。也就是说，该计算机程序用于执行以下步骤：

获取所述至少一个目标车辆的充电反馈结果；

在一种可能的实施方式下，还包括：

获取所述至少一个目标车辆的充电参数；

在一种可能的实施方式下，还包括：

获取所述至少一个目标充电桩的供电参数；

以上为本申请实施例提供的计算机可读存储介质的相关内容。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制。虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明。任何熟悉本领域的技术人员，在不脱离本发明技术方案范围情况下，都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰，或修改为等同变化的等效实施例。因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰，均仍属于本发明技术方案保护的范围内。

Claims

1.一种充电桩分配方法，其特征在于，所述方法包括：

将所述至少一个目标车辆的当前状态数据和至少一个目标充电桩的当前充电数据输入到强化学习模型，得到所述强化学习模型输出的充电桩分配结果；其中，所述充电桩分配结果用于记录所述至少一个目标车辆与所述至少一个目标充电桩之间的匹配关系；

获取所述至少一个目标车辆的充电反馈结果；

2.根据权利要求1所述的方法，其特征在于，所述根据所述至少一个目标车辆的充电反馈结果，更新所述强化学习模型，包括：

3.根据权利要求2所述的方法，其特征在于，若所述充电反馈结果包括充电等待时长和充电结果，则所述根据所述至少一个目标车辆的充电反馈结果，确定所述充电桩分配结果的奖惩结果，包括：

4.根据权利要求1所述的方法，其特征在于，所述当前状态数据包括：当前工况、当前位置、当前剩余电量、当前充电次数、当前充电所需时长、当前行驶里程和当前行驶速度中的至少一个；和/或，所述当前充电数据包括当前排队车辆数量、当前排队车辆的充电总时长、当前供电效率和当前充电等候时长。

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述方法还包括：

获取所述至少一个目标车辆的充电参数；

所述将所述至少一个目标车辆的当前状态数据和至少一个目标充电桩的当前充电数据输入到强化学习模型，得到所述强化学习模型输出的充电桩分配结果，包括：

将所述至少一个目标车辆的当前状态数据、所述至少一个目标车辆的充电参数和至少一个目标充电桩的当前充电数据输入到强化学习模型，得到所述强化学习模型输出的充电桩分配结果。

6.根据权利要求1至4中任一项所述的方法，其特征在于，所述方法还包括：

获取所述至少一个目标充电桩的供电参数；

将所述至少一个目标车辆的当前状态数据、至少一个目标充电桩的当前充电数据和所述至少一个目标充电桩的供电参数输入到强化学习模型，得到所述强化学习模型输出的充电桩分配结果。

7.根据权利要求1所述的方法，其特征在于，所述将所述至少一个目标车辆的当前状态数据和至少一个目标充电桩的当前充电数据输入到强化学习模型，得到所述强化学习模型输出的充电桩分配结果，包括：

8.根据权利要求1所述的方法，其特征在于，当目标区域包括所述至少一个目标车辆和所述至少一个目标充电桩时，所述预设停止条件为所述目标区域内在预设时间段内未出现触发充电请求的目标车辆；或者，所述预设停止条件为所述目标区域内触发充电请求的目标车辆的个数低于第一阈值。

9.一种充电桩分配装置，其特征在于，所述装置包括：

分配确定单元，用于将所述至少一个目标车辆的当前状态数据和至少一个目标充电桩的当前充电数据输入到强化学习模型，得到所述强化学习模型输出的充电桩分配结果；其中，所述充电桩分配结果用于记录所述至少一个目标车辆与所述至少一个目标充电桩之间的匹配关系；

10.一种设备，其特征在于，所述设备包括处理器以及存储器：

所述存储器用于存储计算机程序；

所述处理器用于根据所述计算机程序执行权利要求1-8中任一项所述的方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行权利要求1-8中任一项所述的方法。