CN118095783A

CN118095783A - 一种电动汽车充电规划方法及装置

Info

Publication number: CN118095783A
Application number: CN202410459718.0A
Authority: CN
Inventors: 曾新明
Original assignee: GAC Aion New Energy Automobile Co Ltd
Current assignee: GAC Aion New Energy Automobile Co Ltd
Priority date: 2024-04-17
Filing date: 2024-04-17
Publication date: 2024-05-28
Anticipated expiration: 2044-04-17
Also published as: CN118095783B

Abstract

一种电动汽车充电规划方法及装置，该方法包括：根据预设的多电车协同充电模型定义要素模型；基于要素模型预先构建目标充电规划模型、目标充电路径规划算法以及充电时段选择算法；实时获取待规划车辆的车辆数据；基于车辆数据和要素模型确定待规划车辆的目标状态空间、目标动作状态和目标激励函数；并进一步进行充电站分配得到目标充电站、进行充电路径规划得到目标充电路径、进行充电时段选择得到目标充电时段；根据目标充电站、目标充电路径以及目标充电时段生成最优充电策略。可见，该方法及装置能够考虑充电站分配、充电路径规划和充电时段选择，有利于降低电动汽车充电总成本，提高资源利用效率，从而有利于提升用户体验度。

Description

一种电动汽车充电规划方法及装置

技术领域

本申请涉及整车控制技术领域，具体而言，涉及一种电动汽车充电规划方法及装置。

背景技术

目前，随着电动汽车的爆炸式增长，原有的充电站模式已无法满足基本的充电需求，由此可能会出现严重的充电排队现象，这不仅浪费驾驶人员单位时间产出率，还影响配电网电能的质量。现有的充电规划方法，通常基于用户的充电设置，对沿途的充电站进行规划推荐。在实践中发现，现有方法规划策略单一，降低了用户使用体验度。

发明内容

本申请实施例的目的在于提供一种电动汽车充电规划方法及装置，能够考虑充电站分配、充电路径规划和充电时段选择，有利于降低电动汽车充电总成本，提高资源利用效率，从而有利于提升用户体验度。

本申请第一方面提供了一种电动汽车充电规划方法，包括：

根据预设的多电车协同充电模型定义要素模型；其中，所述要素模型包括电动汽车的状态空间函数、电动汽车的动作状态函数和电动汽车的激励函数；

基于所述要素模型预先构建目标充电规划模型、目标充电路径规划算法以及充电时段选择算法；

实时获取待规划车辆的车辆数据；

基于所述车辆数据和所述要素模型确定所述待规划车辆的目标状态空间、目标动作状态和目标激励函数；

基于所述目标状态空间、所述目标动作状态、所述目标激励函数和所述目标充电规划模型进行充电站分配，得到目标充电站；

基于所述目标状态空间、所述目标动作状态、所述目标激励函数和所述目标充电路径规划算法进行充电路径规划，得到目标充电路径；

基于所述目标状态空间、所述目标动作状态、所述目标激励函数和所述充电时段选择算法进行充电时段选择，得到目标充电时段；

根据所述目标充电站、所述目标充电路径以及所述目标充电时段，生成最优充电策略。

进一步地，所述基于所述要素模型预先构建目标充电规划模型、目标充电路径规划算法以及充电时段选择算法，包括：

基于所述要素模型定义第一状态空间、第一动作空间和激励函数；

根据所述第一状态空间、所述第一动作空间和所述激励函数，构建目标充电规划模型；

基于所述要素模型定义第二状态空间和第二动作空间；

根据所述第二状态空间和所述第二动作空间，构建基于Q-learing的目标充电路径规划算法；

基于所述目标充电规划模型和所述目标充电路径规划算法，构建基于系统负荷的充电时段选择算法。

进一步地，所述根据所述第一状态空间、所述第一动作空间和所述激励函数，构建目标充电规划模型，包括：

根据所述第一状态空间、所述第一动作空间和所述激励函数，构建DQN网络模型；其中，所述第一状态空间包括充电站状态和电车状态，所述第一动作空间包括充电站分配的动作；

对所述DQN网络模型进行初始化；

获取环境交互数据；

对所述环境交互数据进行采样得到训练样本；其中，所述训练样本包括状态样本、执行动作样本和及时奖励样本；

根据最小化深度Q网络中的TD误差和所述训练样本对所述DQN网络模型进行训练，得到训练好的DQN网络模型；

在实际环境中对所述训练好的DQN网络模型进行测试，得到测试结果；

根据所述测试结果对所述训练好的DQN网络模型进行优化和调整，得到目标充电规划模型。

进一步地，所述根据所述第二状态空间和所述第二动作空间，构建基于Q-learing的目标充电路径规划算法，包括：

根据所述第二状态空间和所述第二动作空间，构建基于Q-learing的原始径规划算法；其中，所述第二状态空间至少包括电动汽车当前位置、电动汽车电量以及电动汽车充电功率；所述第二动作空间包括每个所述第二状态空间对应能够选取的充电站集合；

初始化所述原始径规划算法的Q值表；

通过所述Q值表记录确定每个所述第二状态空间和所述第二动作空间对应的Q值；

采用贪婪策略和所述第二动作空间对所述Q值表进行更新，得到目标Q值表；

根据所述目标Q值表生成目标充电路径规划算法。

进一步地，所述充电时段选择算法中最优充电时段的计算公式为：

；

其中，t_op为所述最优充电时段，为t时刻电动汽车在充电站k上的充电费用；/>为综合权重；

其中，充电站k由所述目标充电规划模型确定。

进一步地，所述充电费用的计算公式为：

；

其中，为充电站k在时刻t时充电的电量费用，/>为电动汽车到达充电站时的剩余电量，/>为电动汽车的电池容量，/>为t时刻充电站k中充电机的充电效率，为t时刻在充电站k的充电等待时间，β₁为单位时间价值。

进一步地，所述剩余电量的公式表示为：

；

其中，为电动汽车决策时的剩余电量，ρ为单位距离平均耗电量，/>为电动汽车前往充电站k时道路l的距离；

其中，所述道路l由所述目标充电路径规划算法确定。

本申请第二方面提供了一种电动汽车充电规划装置，所述电动汽车充电规划装置包括：

定义模块，用于根据预设的多电车协同充电模型定义要素模型；其中，所述要素模型包括电动汽车的状态空间函数、电动汽车的动作状态函数和电动汽车的激励函数；

构建模块，用于基于所述要素模型预先构建目标充电规划模型、目标充电路径规划算法以及充电时段选择算法；

获取模块，用于实时获取待规划车辆的车辆数据；

确定模块，用于基于所述车辆数据和所述要素模型确定所述待规划车辆的目标状态空间、目标动作状态和目标激励函数；

充电站分配模块，用于基于所述目标状态空间、所述目标动作状态、所述目标激励函数和所述目标充电规划模型进行充电站分配，得到目标充电站；

充电路径规划模块，用于基于所述目标状态空间、所述目标动作状态、所述目标激励函数和所述目标充电路径规划算法进行充电路径规划，得到目标充电路径；

充电时段选择模块，用于基于所述目标状态空间、所述目标动作状态、所述目标激励函数和所述充电时段选择算法进行充电时段选择，得到目标充电时段；

生成模块，用于根据所述目标充电站、所述目标充电路径以及所述目标充电时段，生成最优充电策略。

本申请第三方面提供了一种电子设备，包括存储器以及处理器，所述存储器用于存储计算机程序，所述处理器运行所述计算机程序以使所述电子设备执行本申请第一方面中任一项所述的电动汽车充电规划方法。

本申请第四方面提供了一种计算机可读存储介质，其存储有计算机程序指令，所述计算机程序指令被一处理器读取并运行时，执行本申请第一方面中任一项所述的电动汽车充电规划方法。

本申请的有益效果为：该方法及装置能够考虑充电站分配、充电路径规划和充电时段选择，有利于降低电动汽车充电总成本，提高资源利用效率，从而有利于提升用户体验度。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种电动汽车充电规划方法的流程示意图；

图2为本申请实施例提供的另一种电动汽车充电规划方法的流程示意图；

图3为本申请实施例提供的一种电动汽车充电规划方法中要素定义的示意图；

图4为本申请实施例提供的一种充电站分配的流程示意图；

图5为本申请实施例提供的一种充电路径规划的流程示意图；

图6为本申请实施例提供的一种充电时段选择的流程示意图；

图7为本申请实施例提供的一种电动汽车充电规划方法的总流程示意图；

图8为本申请实施例提供的一种电动汽车充电规划装置的结构示意图；

图9为本申请实施例提供的另一种电动汽车充电规划装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

实施例1

请参看图1，图1为本实施例提供的一种电动汽车充电规划方法的流程示意图。其中，该电动汽车充电规划方法包括：

S101、根据预设的多电车协同充电模型定义要素模型。

本实施例中，要素模型包括电动汽车的状态空间函数、电动汽车的动作状态函数和电动汽车的激励函数。

S102、基于要素模型预先构建目标充电规划模型、目标充电路径规划算法以及充电时段选择算法。

本实施例中，目标充电路径规划算法用于确定电动车辆在行驶中的最佳充电路径。

本实施例中，充电时段选择算法用于选择最佳的充电时段，以满足基本的能力需求并在电力系统负荷相对较低的阶段进行充电。

本实施例中，该方法通过协同充电模型，在充电站分配、充电路径规划和充电时段选择三个阶段分别指定奖励函数并构建深度强化学习模型，从而降低成本，提高系统效益。

S103、实时获取待规划车辆的车辆数据。

S104、基于车辆数据和要素模型确定待规划车辆的目标状态空间、目标动作状态和目标激励函数。

S105、基于目标状态空间、目标动作状态、目标激励函数和目标充电规划模型进行充电站分配，得到目标充电站。

S106、基于目标状态空间、目标动作状态、目标激励函数和目标充电路径规划算法进行充电路径规划，得到目标充电路径。

S107、基于目标状态空间、目标动作状态、目标激励函数和充电时段选择算法进行充电时段选择，得到目标充电时段。

S108、根据目标充电站、目标充电路径以及目标充电时段，生成最优充电策略。

作为一种可选的实施方式，该方法还包括：

获取待规划车辆的实时监测数据；

基于实时监测数据实时调整多电车协同充电模型的模型参数。

本实施例中，该方法的执行主体可以为计算机、服务器等计算装置，对此本实施例中不作任何限定。

在本实施例中，该方法的执行主体还可以为智能手机、平板电脑等智能设备，对此本实施例中不作任何限定。

可见，实施本实施例所描述的电动汽车充电规划方法，能够考虑充电站分配、充电路径规划和充电时段选择，有利于降低电动汽车充电总成本，提高资源利用效率，从而有利于提升用户体验度。

实施例2

请参看图2，图2为本实施例提供的一种电动汽车充电规划方法的流程示意图。其中，该电动汽车充电规划方法包括：

S201、根据预设的多电车协同充电模型定义要素模型。

S202、基于要素模型定义第一状态空间、第一动作空间和激励函数。

本实施例中，第一状态空间中，第i辆电动汽车驶入充电站状态和电车状态如下所示：

（1-1）

其中，分别表示48h（当前和次日）预测负荷值，/>分别表示48h分时电价，/>和/>分别为第/>辆电动汽车的到达时刻和预计离开时刻，/>表示汽车速度，/>为加速度，/>表示电池中存储的电量相对于最大容量的百分比，/>表示电车在当前电池状态下能够行驶的预计距离，/>表示电车当前的地理位置。

本实施例中，第一动作空间中，

（1-2）

其中，为48小时的优先级评定值。由于每辆电动汽车驶入充电站的时间和预计离开充电站的时间并不相同，故对全部充电时段进行优先级评定，并根据优先级控制电动车的充电行为。

本实施例中，多电车协同充电模型的目标函数与电动汽车充电成本以及所在区域的负荷波动有关，故第i辆电动汽车的激励函数计算公式为：

（1-3）

其中，为第/>辆电动汽车的充电成本，/>为第/>辆电动汽车与充电站连接后引起的负荷标准差变化量，/>和/>为权重值。

请参看图3，图3示出了一种电动汽车充电规划方法中要素定义的示意图。

S203、根据第一状态空间、第一动作空间和激励函数，构建DQN网络模型。

本实施例中，第一状态空间包括充电站状态和电车状态，第一动作空间包括充电站分配的动作，充电站分配的动作用于指代在多个充电站和电车之间进行资源调度和分配的动作。

S204、对DQN网络模型进行初始化。

S205、获取环境交互数据。

S206、对环境交互数据进行采样得到训练样本。

本实施例中，训练样本包括状态样本、执行动作样本和及时奖励样本。

S207、根据最小化深度Q网络中的TD误差和训练样本对DQN网络模型进行训练，得到训练好的DQN网络模型。

本实施例中，该方法可以优先构建强化学习环境，具体可以定义状态空间（：充电站状态和电车状态）、动作空间（/>：充电站分配的动作）和奖励函数/>，其中是/>执行动作/>后的下一个状态。然后，初始化模型参数/>，随机初始化深度神经网络的权重和偏置。最后，训练DQN网络模型。

在DQN网络模型的训练过程中，可以先通过与环境的交互，采样状态、执行动作/>和即时奖励数据/>，然后通过最小化深度Q网络中的temporal difference （TD）误差来逼近最优/>值。

在本实施例中，充电站分配算法中的TD误差的计算公式如下：

（2）

其中，是执行动作/>后获得的奖励，/>是折扣因子，表示未来奖励的权重，/>是执行动作/>后的下一个状态，/>是下一个状态/>下可选择的最大Q值，/>表示目标Q网络的参数。此外，训练DQN模型的过程包括：

步骤1、在环境中与智能体交互，采样状态和执行动作/>；

步骤2、观察下一个状态和即时奖励/>；

步骤3、计算TD误差；

步骤4、使用TD误差更新深度Q网络中的参数；

步骤5、定期更新目标Q网络的参数。

S208、在实际环境中对训练好的DQN网络模型进行测试，得到测试结果。

S209、根据测试结果对训练好的DQN网络模型进行优化和调整，得到目标充电规划模型。

本实施例中，该方法可以从经验回放缓存中随机抽样一批样本数据，以平稳DQN的训练过程。然后，再在实际环境中测试训练好的模型，验证其在实时决策时的性能。再后，根据测试结果对算法进行优化和调整，包括模型结构、训练参数和奖励函数。

在本实施例中，该方法可以将训练好的DQN模型应用于实时充电站分配决策，根据当前系统状态，通过学到的Q值，选择具有最高Q值的动作，即最优的充电站分配方案。

请参看图4，图4示出了一种充电站分配的流程示意图。

S210、基于要素模型定义第二状态空间和第二动作空间。

S211、根据第二状态空间和第二动作空间，构建基于Q-learing的原始径规划算法。

本实施例中，第二状态空间至少包括电动汽车当前位置、电动汽车电量以及电动汽车充电功率；第二动作空间包括每个第二状态空间对应能够选取的充电站集合。

S212、初始化原始径规划算法的Q值表。

S213、通过Q值表记录确定每个第二状态空间和第二动作空间对应的Q值。

S214、采用贪婪策略和第二动作空间对Q值表进行更新，得到目标Q值表。

S215、根据目标Q值表生成目标充电路径规划算法。

举例来说，该过程可以通过以下步骤加以实现：

步骤1、定义状态空间和动作空间；

定义状态空间，例如电动车的当前位置、电量、充电功率等状态信息；定义动作空间，例如每个状态下可以选择的充电站；

步骤2、初始化Q值表，记录每个状态--动作对的Q值；

步骤3、选择动作；

采用贪婪策略（）来衡量探索和利用两者之间的权重，即以/>概率从动作空间中随机选择一个动作，并以/>的概率选取当前已有动作中最优的动作，从而避免局部最优策略；

步骤4、执行动作，并观察奖励函数和新状态；

步骤5、更新Q值；

步骤6、迭代步骤3到步骤5，直到达到预定的迭代次数或Q值趋于稳定；

步骤7、路径规划；

根据学习到的Q值，确定电动车的最优路径。

步骤8、实时调整策略；

监控系统实时状态，根据需要对Q值表在线更新，以适应动态变化的环境。

本实施例中，充电路径规划算法中Q函数值计算公式如下：

（3）

其中，为学习率，控制新观测到的/>值对现有/>值的影响程度，/>是折扣因子，/>是执行动作后的新状态，/>表示在状态/>下执行动作/>后获得的总估值函数，/>表示在当前状态/>下采取动作/>后到达下一节点/>可以得到的奖励。

请参看图5，图5示出了一种充电路径规划的流程示意图。

S216、基于目标充电规划模型和目标充电路径规划算法，构建基于系统负荷的充电时段选择算法。

本实施例中，充电时段选择算法中最优充电时段的计算公式为：

（4-1）

其中，t_op为最优充电时段，为t时刻电动汽车在充电站k上的充电费用；为综合权重；

其中，充电站k由目标充电规划模型确定。

在本实施例中，充电费用的计算公式为：

（4-2）

其中，为充电站k在时刻t时充电的电量费用，/>为电动汽车到达充电站时的剩余电量，/>为电动汽车的电池容量，/>为t时刻充电站k中充电机的充电效率，/>为t时刻在充电站k的充电等待时间，β₁为单位时间价值。

在本实施例中，剩余电量的公式表示为：

；

其中，道路l由目标充电路径规划算法确定。

在本实施例中，

（4-3）

其中表示充电站/>在时刻/>的负荷水平，/>表示电动车在时刻/>的充电功率需求，/>表示一天中的总时刻数，/>是一个调整充电需求权重和用户需求权重的参数。

值得注意的是，充电站和道路/>分别由充电站分配算法和充电最优路径选择算法来确定。

举例来说，该过程可以通过以下步骤加以实现：

步骤1、系统负荷监控；

用智能电表实时监测充电站的负荷情况；

步骤2、历史负荷分析；

分析历史充电站负荷数据，了解负荷的日变化模式；

步骤3、负荷平均值；

计算负荷在每小时或每15分钟的平均值；

步骤4、充电时段选择；

如果当前时刻系统负荷低于平均负荷的某个阈值，并且未来时刻电价相对较低，则选择该时段进行充电；

步骤5、用户需求匹配；

确保选择的充电时段可以满足电动车用户的充电需求；

步骤6、实时调整策略；

在充电过程中，持续监测系统负荷的变化，并根据实时情况调整充电时段。

请参看图6，图6示出了一种充电时段选择的流程示意图。

S217、实时获取待规划车辆的车辆数据。

S218、基于车辆数据和要素模型确定待规划车辆的目标状态空间、目标动作状态和目标激励函数。

S219、基于目标状态空间、目标动作状态、目标激励函数和目标充电规划模型进行充电站分配，得到目标充电站。

S220、基于目标状态空间、目标动作状态、目标激励函数和目标充电路径规划算法进行充电路径规划，得到目标充电路径。

S221、基于目标状态空间、目标动作状态、目标激励函数和充电时段选择算法进行充电时段选择，得到目标充电时段。

S222、根据目标充电站、目标充电路径以及目标充电时段，生成最优充电策略。

本实施例中，的最优充电时段依赖于最优充电站/>和充电路径/>。此时，智能电车/>的最优选择方案为/>。

在本实施例中，协同充电模型从充电站分配、充电路径规划和充电时段选取三个方面。基于双层深度强化学习的多电车协同充电算法能够有效地提升算法的搜索效率，从而提供更优的充电引导策略，有效降低电动汽车总充电费用。

请参看图7，图7示出了一种电动汽车充电规划方法的总流程示意图。

可见，实施本实施例所描述的电动汽车充电规划方法，能够实现以下的技术效果：

（1）基于DQN的充电站分配算法能够通过学习适应不断变化的充电站分配环境，可以在不需要精确先验知识的情况下，从经验中学到最优的充电站分配策略。同时，DQN允许对非线性关系进行建模，更好地捕捉充电站资源分配问题中的复杂性和非线性特征。

（2）基于Q-learing的充电路径规划算法通过学习与环境交互中的奖励来适应不同的充电站路径规划问题，能够在不断变化的充电站分布、电动车分布和需求情况下优化充电路径，提高决策的泛化能力。

（3）基于系统负荷的充电时段选择算法通过在电力系统负载相对较低的时段进行充电，实现负载平衡。智能调度充电任务使得充电需求更加均匀地分布在不同时段，减少突发性的大量充电需求。

（4）考虑充电站分配、充电路径规划和充电时段选择，不仅减轻电网峰值负荷，降低用户高峰时段电价，还提高了电能利用率，避免电力系统超负荷或资源浪费，增加可再生能源利用率，推动绿色能源发展。

实施例3

请参看图8，图8为本实施例提供的一种电动汽车充电规划装置的结构示意图。如图8所示，该电动汽车充电规划装置包括：

定义模块310，用于根据预设的多电车协同充电模型定义要素模型；其中，要素模型包括电动汽车的状态空间函数、电动汽车的动作状态函数和电动汽车的激励函数；

构建模块320，用于基于要素模型预先构建目标充电规划模型、目标充电路径规划算法以及充电时段选择算法；

获取模块330，用于实时获取待规划车辆的车辆数据；

确定模块340，用于基于车辆数据和要素模型确定待规划车辆的目标状态空间、目标动作状态和目标激励函数；

充电站分配模块350，用于基于目标状态空间、目标动作状态、目标激励函数和目标充电规划模型进行充电站分配，得到目标充电站；

充电路径规划模块360，用于基于目标状态空间、目标动作状态、目标激励函数和目标充电路径规划算法进行充电路径规划，得到目标充电路径；

充电时段选择模块370，用于基于目标状态空间、目标动作状态、目标激励函数和充电时段选择算法进行充电时段选择，得到目标充电时段；

生成模块380，用于根据目标充电站、目标充电路径以及目标充电时段，生成最优充电策略。

本实施例中，对于电动汽车充电规划装置的解释说明可以参照实施例1或实施例2中的描述，对此本实施例中不再多加赘述。

可见，实施本实施例所描述的电动汽车充电规划装置，能够考虑充电站分配、充电路径规划和充电时段选择，有利于降低电动汽车充电总成本，提高资源利用效率，从而有利于提升用户体验度。

实施例4

请参看图9，图9为本实施例提供的一种电动汽车充电规划装置的结构示意图。如图9所示，该电动汽车充电规划装置包括：

获取模块330，用于实时获取待规划车辆的车辆数据；

作为一种可选的实施方式，构建模块320包括：

定义子模块321，用于基于要素模型定义第一状态空间、第一动作空间和激励函数；

构建子模块322，用于根据第一状态空间、第一动作空间和激励函数，构建目标充电规划模型；

定义子模块321，还用于基于要素模型定义第二状态空间和第二动作空间；

构建子模块322，还用于根据第二状态空间和第二动作空间，构建基于Q-learing的目标充电路径规划算法；

构建子模块322，还用于基于目标充电规划模型和目标充电路径规划算法，构建基于系统负荷的充电时段选择算法。

作为一种可选的实施方式，构建子模块322，具体用于根据第一状态空间、第一动作空间和激励函数，构建DQN网络模型；其中，第一状态空间包括充电站状态和电车状态，第一动作空间包括充电站分配的动作；

构建子模块322，具体还用于对DQN网络模型进行初始化；

构建子模块322，具体还用于获取环境交互数据；

构建子模块322，具体还用于对环境交互数据进行采样得到训练样本；其中，训练样本包括状态样本、执行动作样本和及时奖励样本；

构建子模块322，具体还用于根据最小化深度Q网络中的TD误差和训练样本对DQN网络模型进行训练，得到训练好的DQN网络模型；

构建子模块322，具体还用于在实际环境中对训练好的DQN网络模型进行测试，得到测试结果；

构建子模块322，具体还用于根据测试结果对训练好的DQN网络模型进行优化和调整，得到目标充电规划模型。

作为一种可选的实施方式，构建子模块322，具体还用于根据第二状态空间和第二动作空间，构建基于Q-learing的原始径规划算法；其中，第二状态空间至少包括电动汽车当前位置、电动汽车电量以及电动汽车充电功率；第二动作空间包括每个第二状态空间对应能够选取的充电站集合；

构建子模块322，具体还用于初始化原始径规划算法的Q值表；

构建子模块322，具体还用于通过Q值表记录确定每个第二状态空间和第二动作空间对应的Q值；

构建子模块322，具体还用于采用贪婪策略和第二动作空间对Q值表进行更新，得到目标Q值表；

构建子模块322，具体还用于根据目标Q值表生成目标充电路径规划算法。

；

其中，充电站k由目标充电规划模型确定。

本实施例中，充电费用的计算公式为：

；

本实施例中，剩余电量的公式表示为：

；

其中，道路l由目标充电路径规划算法确定。

本申请实施例提供了一种电子设备，包括存储器以及处理器，所述存储器用于存储计算机程序，所述处理器运行所述计算机程序以使所述电子设备执行本申请实施例1或实施例2中的电动汽车充电规划方法。

本申请实施例提供了一种计算机可读存储介质，其存储有计算机程序指令，所述计算机程序指令被一处理器读取并运行时，执行本申请实施例1或实施例2中的电动汽车充电规划方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种电动汽车充电规划方法，其特征在于，包括：

实时获取待规划车辆的车辆数据；

2.根据权利要求1所述的电动汽车充电规划方法，其特征在于，所述基于所述要素模型预先构建目标充电规划模型、目标充电路径规划算法以及充电时段选择算法，包括：

基于所述要素模型定义第二状态空间和第二动作空间；

3.根据权利要求2所述的电动汽车充电规划方法，其特征在于，所述根据所述第一状态空间、所述第一动作空间和所述激励函数，构建目标充电规划模型，包括：

对所述DQN网络模型进行初始化；

获取环境交互数据；

4.根据权利要求2所述的电动汽车充电规划方法，其特征在于，所述根据所述第二状态空间和所述第二动作空间，构建基于Q-learing的目标充电路径规划算法，包括：

初始化所述原始径规划算法的Q值表；

根据所述目标Q值表生成目标充电路径规划算法。

5.根据权利要求2所述的电动汽车充电规划方法，其特征在于，所述充电时段选择算法中最优充电时段的计算公式为：

；

其中，t_op为所述最优充电时段，为t时刻电动汽车在充电站k上的充电费用；为综合权重；

其中，充电站k由所述目标充电规划模型确定。

6.根据权利要求5所述的电动汽车充电规划方法，其特征在于，所述充电费用的计算公式为：

；

7.根据权利要求6所述的电动汽车充电规划方法，其特征在于，所述剩余电量的公式表示为：

；

其中，所述道路l由所述目标充电路径规划算法确定。

8.一种电动汽车充电规划装置，其特征在于，所述电动汽车充电规划装置包括：

获取模块，用于实时获取待规划车辆的车辆数据；

9.一种电子设备，其特征在于，所述电子设备包括存储器以及处理器，所述存储器用于存储计算机程序，所述处理器运行所述计算机程序以使所述电子设备执行权利要求1至7中任一项所述的电动汽车充电规划方法。

10.一种可读存储介质，其特征在于，所述可读存储介质中存储有计算机程序指令，所述计算机程序指令被一处理器读取并运行时，执行权利要求1至7任一项所述的电动汽车充电规划方法。