CN118261372A

CN118261372A - 基于改进dqn的大规模电动汽车充电调度方法、装置和介质

Info

Publication number: CN118261372A
Application number: CN202410351846.3A
Authority: CN
Inventors: 李天阳; 韩英男; 路阳
Original assignee: Northeast Dianli University
Current assignee: Northeast Electric Power University
Priority date: 2024-03-26
Filing date: 2024-03-26
Publication date: 2024-06-28

Abstract

本发明提供于改进DQN的大规模电动汽车充电调度方法、装置和介质，涉及电动汽车充电调度技术领域。方法包含S1、获取第一电网信息。S2、将第一电网信息输入电动汽车选择网络，以获取各个电动汽车进行充电调度的预期收益值。S3、根据预期收益值，选择当前状态下可调度的具有最小Q‑value的电动汽车。S4、将所选的电动汽车的状态向量和当前所有可用充电设备的状态信息构造为第二电网信息。S5、将第二电网信息输入到充电状态选择网络，以获取当前选择的电动汽车进行充电的回报值估计。充电状态选择网络包括依次连接的基于卷积神经网络的特征提取模块、基于噪声的探索模块INEM，以及全连接层FC。S6、根据回报值估计，选择其中估计值最小的充电桩为电动汽车充电。

Description

基于改进DQN的大规模电动汽车充电调度方法、装置和介质

技术领域

本发明涉及电动汽车充电调度技术领域，具体而言，涉及一种基于改进DQN的大规模电动汽车充电调度方法、装置和介质。

背景技术

充电基础设施的不足和大规模电动汽车充电调度算法的效率问题构成了电动汽车推广的核心障碍。在电动汽车充电调度领域的研究历史中，元启发式、强化学习(RL)和深度强化学习(DRL)是三种主要的技术手段。元启发式方法虽然能够产生实时解决方案，但其搜索过程较为缓慢；而强化学习方法则需要通过大量的迭代，通过智能体与环境的交互来积累数据并构建状态，这在一定程度上限制了其在实时充电调度中的应用效果。

在处理复杂环境下的大规模电动汽车充电调度问题时，当前基于DRL的方法面临着状态表示、模型构建和探索策略等方面的挑战。这些挑战限制了算法处理大规模问题的能力，使得在实际应用中得到的解决方案效率不尽如人意。

因此，针对这些技术难题的进一步研究和创新是提升电动汽车充电调度效率、推动电动汽车行业发展的关键所在。有鉴于此，申请人在研究了现有的技术后特提出本申请。

发明内容

本发明提供了一种基于改进DQN的大规模电动汽车充电调度方法、装置和介质，以改善上述技术问题中的至少一个。

第一方面、本发明实施例提供了一种基于改进DQN的大规模电动汽车充电调度方法，其包含步骤S1至步骤S6。

S1、获取电动汽车的实时位置信息、剩余行驶里程、预估充电时间，以及当前状态下各个充电设备的位置信息、排队电动汽车数量、被占用总时间和空闲时间，并将其作为第一电网信息。

S2、将所述第一电网信息输入电动汽车选择网络，以获取各个电动汽车进行充电调度的预期收益值。其中，所述预期收益值为电动汽车选择网络对应的Q-value。所述电动汽车选择网络包括依次连接的细粒度特征提取模块FFEM、基于噪声的探索模块INEM、Dueling模块，以及全连接层FC。

S3、根据所述预期收益值，选择当前状态下可调度的具有最小Q-value的电动汽车。

S4、将所选的电动汽车的状态向量和当前所有可用充电设备的状态信息构造为第二电网信息。

S5、将第二电网信息输入到充电状态选择网络，以获取当前选择的电动汽车进行充电的回报值估计。所述充电状态选择网络包括依次连接的基于卷积神经网络的特征提取模块、基于噪声的探索模块INEM，以及全连接层FC。

S6、根据回报值估计，选择其中估计值最小的充电桩为电动汽车充电。

在一个可选的实施例中，所述细粒度特征提取模块FFEM包括依次连接的两个子模块和一个用以连接输入和输出的卷积层Conv。

每个子模块包括依次连接的卷积层Conv、批归一化BatchNormalization和修正线性单元ReLU。

优选的，所述子模块内的卷积层Conv为3×3卷积层Conv。用以连接输入和输出的卷积层Conv为1×1卷积层Conv。

在一个可选的实施例中，所述基于噪声的探索模块INEM包括依次连接的一个dropout层和两个噪声模块。噪声模块包括依次连接的带噪声的线性层NoisyLinearLayer和修正线性单元ReLU。

优选的，所述带噪声的线性层的表达式为：

式中，y为输出、μ_ω是权重的均值向量，表示噪声的期望值、σ_ω是权重的标准差向量，表示噪声的方差、x是输入向量、μ_b是偏置的均值、ε_ω和σ_b均为随机变量、ε_b是与偏置相关的零均值高斯噪声。

在一个可选的实施例中，所述Dueling模块包含平行的优势值预测器和状态值预测器，以及分别连接于所述优势值预测器和状态值预测器的聚合层。优势值预测器和状态值预测器分别包括四层全连接层。其中优势值预测器的输出节点数与Dueling模块的输出节点数相同。状态值预测器的输出节点数为1。优势值预测器以噪声特征作为输入，输出优势值。状态值预测器以噪声特征作为输入，输出状态值。聚合层输入所述优势值和所述状态值，输出Q值。

优选的，所述Dueling模块的表达式为：

式中，Q表示Q值、θ表示神经网络的参数集合、S_noised表示噪声、a表示在当前状态下选择的动作、v_η表示状态值预测器、η表示状态值预测器的参数、a_ψ表示优势值预测器、ψ表示优势值预测器的参数、a′表示根据后续状态s'的当前动作选择策略选择的动作、N_ev表示所有可能动作的集合。

第二方面、本发明实施例提供了一种基于改进DQN的大规模电动汽车充电调度装置，其包含第一信息获取模块、预期收益获取模块、车辆选择模块、第二信息获取模块、回报估计模块和充电选择模块。

第一信息获取模块，用于获取电动汽车的实时位置信息、剩余行驶里程、预估充电时间，以及当前状态下各个充电设备的位置信息、排队电动汽车数量、被占用总时间和空闲时间，并将其作为第一电网信息。

预期收益获取模块，用于将所述第一电网信息输入电动汽车选择网络，以获取各个电动汽车进行充电调度的预期收益值。其中，所述预期收益值为电动汽车选择网络对应的Q-value。所述电动汽车选择网络包括依次连接的细粒度特征提取模块FFEM、基于噪声的探索模块INEM、Dueling模块，以及全连接层FC。

车辆选择模块，用于根据所述预期收益值，选择当前状态下可调度的具有最小Q-value的电动汽车。

第二信息获取模块，用于将所选的电动汽车的状态向量和当前所有可用充电设备的状态信息构造为第二电网信息。

回报估计模块，用于将第二电网信息输入到充电状态选择网络，以获取当前选择的电动汽车进行充电的回报值估计。所述充电状态选择网络包括依次连接的基于卷积神经网络的特征提取模块、基于噪声的探索模块INEM，以及全连接层FC。

充电选择模块，用于根据回报值估计，选择其中估计值最小的充电桩为电动汽车充电。

第三方面、本发明实施例提供了一种基于改进DQN的大规模电动汽车充电调度设备，其包括处理器、存储器，以及存储在所述存储器内的计算机程序。所述计算机程序能够被所述处理器执行，以实现如第一方面任意一段所述的一种基于改进DQN的大规模电动汽车充电调度方法。

第四方面、本发明实施例提供了一种计算机可读存储介质。所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如第一方面任意一段所述的一种基于改进DQN的大规模电动汽车充电调度方法。

通过采用上述技术方案，本发明可以取得以下技术效果：

本发明实施例的基于改进DQN的大规模电动汽车充电调度方法加入了细粒度特征提取模块FFEM有效地从复杂的大规模状态空间中提取出有效状态信息，为模型对解决含有大规模解空间问题提供了基础保障。并且接合了基于噪声的探索模块INEM和基于对偶网络的Dueling模块，在INEM中通过在线性噪声层中加入dropout层组来阻止度探索，同时使用了Dueling模块自身的稳定Q-value预测波动能力对含有噪声的特征进行动作价值预测。提高了模型在探索过程中的稳定性以及加速了模型的收敛速度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是大规模电动汽车充电调度方法的流程示意图。

图2是大规模电动汽车充电调度方法的网络结构图。

图3是细粒度特征提取模块FFEM的网络结构图。

图4是基于噪声的探索模块INEM的网络结构图。

图5是Dueling模块的网络结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一、请参阅图1至图5，本发明第一实施例提供一种基于改进DQN的大规模电动汽车充电调度方法，其可由基于改进DQN的大规模电动汽车充电调度设备来执行(以下简称：调度设备)。特别地，由调度设备中的一个或多个处理器来执行，以实现步骤S1至步骤S6。

S5、将第二电网信息输入到充电状态选择网络，以获取当前选择的电动汽车进行充电的回报值估计。其中，所述充电状态选择网络包括依次连接的基于卷积神经网络的特征提取模块、基于噪声的探索模块INEM，以及全连接层FC。

具体的，电动汽车可以是已经接入充电桩，或者是正在寻找充电桩的电动汽车。所述充电设备可以是已经接入电动汽车，或者是空闲状态的充电设备。

本发明实施例的大规模电动汽车充电调度方法至少能够用于为正在寻找充电桩的司机推荐合适的充电桩和/或自动调整电动汽车的充电状态。自动调整电动汽车的充电状态包括但不限于停止充电和开始充电。

可以理解的是，所述调度设备可以是便携笔记本计算机、台式机计算机、服务器、智能手机或者平板电脑等具有计算性能的电子设备。

在本实施例中，为提高电动汽车选择过程中的特征提取能力，提出了一个细粒度特征提取模块(FFEM)。此外，还利用改进的基于噪声的探索模块(INEM)探索解决方案空间。最后，集成了一个Dueling模块，以提高Q值拟合的性能。

如图3所示，在上述实施例的基础上，本发明的一个可选地实施例中，所述细粒度特征提取模块FFEM包括依次连接的两个子模块和一个用以连接输入和输出的卷积层Conv。每个子模块包括依次连接的卷积层Conv、批归一化Batch Normalization和修正线性单元ReLU。优选的，所述子模块内的卷积层Conv为3×3卷积层Conv。用以连接输入和输出的卷积层Conv为1×1卷积层Conv。

本发明实施例提出了一种用于从输入的第一电网信息中提取特征的细粒度特征提取模块(FFEM)。FFEM包括两个子模块(图3)，每个子模块都利用3×3卷积层从输入中提取特征。采用批归一化来克服在某些调度场景中特征图可能稀疏的问题，并防止梯度消失。此外，每个批归一化层后都采用ReLU(修正线性单元)，增强模块的非线性特性。在每个子模块内，卷积、批归一化和ReLU的组合被线性连接两次，而一个1×1卷积层连接输入和输出。

这种实现方式实现了跨通道集成，增强了子模块的非线性特性。为了解决在高维状态空间中提取状态特征的困难，FFEM由两个线性连接的子模块组成。

如图4所示，在上述实施例的基础上，本发明的一个可选地实施例中，所述基于噪声的探索模块INEM包括依次连接的一个drop out层和两个噪声模块。噪声模块包括依次连接的带噪声的线性层Noisy Linear Layer和修正线性单元ReLU。

具体的，为了解决解空间探索效率低下的问题，本发明实施例提出了INEM(如图4所示)，包括一个drop out层和两个带噪声的线性层。

对于drop out层，在前向传播过程中，部分神经元以概率p＝0.5被随机停用，丢弃其原始计算结果，并将它们的输出设置为0。此外，关于这些停用的神经元，它们的参数更新在反向传播过程中被暂停。在每个训练迭代中，这有效地训练了原始模型的子模型。这种策略有助于减少特定神经元之间的依赖性，从而增强模型的泛化能力并减轻过拟合风险。

对于其中带噪声的线性层，它结合了原始输出和噪声。它可以简单地描述为

其引入了噪声，帮助模型在解空间中进行更深入的探索。该模块设计从多个角度为模型提供显著的优势。首先，通过辍学，它加速了训练速度。此外，集成的带噪声的线性层有助于保持探索和利用之间的平衡，增强了模型的泛化能力。这些组合元素推动模型更好地适应大规模电动车充电调度任务所带来的挑战

如图5所示，在上述实施例的基础上，本发明的一个可选地实施例中，所述Dueling模块包含平行的优势值预测器和状态值预测器，以及分别连接于所述优势值预测器和状态值预测器的聚合层。优势值预测器和状态值预测器分别包括四层全连接层。其中优势值预测器的输出节点数与Dueling模块的输出节点数相同。状态值预测器的输出节点数为1。优势值预测器以噪声特征作为输入，输出优势值。状态值预测器以噪声特征作为输入，输出状态值。聚合层输入所述优势值和所述状态值，输出Q值。

具体的，在处理大规模或高维状态空间时，直接从状态-动作对映射到其Q值通常需要大量计算资源，并且很难准确捕捉多样化的状态值信息，导致Q值的不稳定性。

为解决这个问题，本发明实施例引入了一个dueling block。如图5所示，该模块以噪声特征作为输入。与传统网络不同，dueling模块有两个平行的子网络分支。每个分支是一个四层全连接层，其中优势值预测器的输出节点数与模块的输出节点数相同，而状态值预测器的输出节点数为1。这些分支分别估计状态-动作对的优势值和状态值。其中，优势值表示与状态值相关的动作的价值，代表其在特定状态下的相对奖励。聚合层集成了两个分支的输出以得出最终的Q值。

优选的，所述Dueling模块的数学形式为：

实施例二、本发明实施例提供了一种基于改进DQN的大规模电动汽车充电调度装置，其包含第一信息获取模块、预期收益获取模块、车辆选择模块、第二信息获取模块、回报估计模块和充电选择模块。

实施例三、本发明实施例提供了一种基于改进DQN的大规模电动汽车充电调度设备，其包括处理器、存储器，以及存储在所述存储器内的计算机程序。所述计算机程序能够被所述处理器执行，以实现如实施例一任意一段所述的一种基于改进DQN的大规模电动汽车充电调度方法。

实施例四、本发明实施例提供了一种计算机可读存储介质。所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如实施例一任意一段所述的一种基于改进DQN的大规模电动汽车充电调度方法。

在本发明实施例所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置和方法实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，电子设备，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

实施例中提及的“第一\第二”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二”在允许的情况下可以互换特定的顺序或先后次序。应该理解“第一\第二”区分的对象在适当情况下可以互换，以使这里描述的实施例能够以除了在这里图示或描述的那些内容以外的顺序实施。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于改进DQN的大规模电动汽车充电调度方法，其特征在于，包含：

获取电动汽车的实时位置信息、剩余行驶里程、预估充电时间，以及当前状态下各个充电设备的位置信息、排队电动汽车数量、被占用总时间和空闲时间，并将其作为第一电网信息；

将所述第一电网信息输入电动汽车选择网络，以获取各个电动汽车进行充电调度的预期收益值；其中，所述预期收益值为电动汽车选择网络对应的Q-value；所述电动汽车选择网络包括依次连接的细粒度特征提取模块FFEM、基于噪声的探索模块INEM、Dueling模块，以及全连接层FC；

根据所述预期收益值，选择当前状态下可调度的具有最小Q-value的电动汽车；

将所选的电动汽车的状态向量和当前所有可用充电设备的状态信息构造为第二电网信息；

将第二电网信息输入到充电状态选择网络，以获取当前选择的电动汽车进行充电的回报值估计；其中，所述充电状态选择网络包括依次连接的基于卷积神经网络的特征提取模块、基于噪声的探索模块INEM，以及全连接层FC；

根据回报值估计，选择其中估计值最小的充电桩为电动汽车充电。

2.根据权利要求1所述的一种基于改进DQN的大规模电动汽车充电调度方法，其特征在于，所述细粒度特征提取模块FFEM包括依次连接的两个子模块和一个用以连接输入和输出的卷积层Conv；

每个子模块包括依次连接的卷积层Conv、批归一化Batch Normalization和修正线性单元ReLU。

3.根据权利要求2所述的一种基于改进DQN的大规模电动汽车充电调度方法，其特征在于，所述子模块内的卷积层Conv为3×3卷积层Conv；

用以连接输入和输出的卷积层Conv为1×1卷积层Conv。

4.根据权利要求1所述的一种基于改进DQN的大规模电动汽车充电调度方法，其特征在于，所述基于噪声的探索模块INEM包括依次连接的一个drop out层和两个噪声模块；噪声模块包括依次连接的带噪声的线性层Noisy Linear Layer和修正线性单元ReLU。

5.根据权利要求4所述的一种基于改进DQN的大规模电动汽车充电调度方法，其特征在于，所述带噪声的线性层的表达式为：

式中，y为输出、μ_ω是权重的均值向量，表示噪声的期望值、σ_ω是权重的标准差向量，表示噪声的方差、x是输入向量、ε_ω和σ_b均为随机变量、σ_b是偏置的标准差、ε_b是与偏置相关的零均值高斯噪声。

6.根据权利要求1所述的一种基于改进DQN的大规模电动汽车充电调度方法，其特征在于，所述Dueling模块包含平行的优势值预测器和状态值预测器，以及分别连接于所述优势值预测器和状态值预测器的聚合层；优势值预测器和状态值预测器分别包括四层全连接层；其中优势值预测器的输出节点数与Dueling模块的输出节点数相同；状态值预测器的输出节点数为1；优势值预测器以噪声特征作为输入，输出优势值；状态值预测器以噪声特征作为输入，输出状态值；聚合层输入所述优势值和所述状态值，输出Q值。

7.根据权利要求6所述的一种基于改进DQN的大规模电动汽车充电调度方法，其特征在于，所述Dueling模块的表达式为：

式中，Q表示Q值、θ表示神经网络的参数集合、S_noised表示噪声、a表示在当前状态下选择的动作、v_η表示状态值预测器、η表示状态值预测器的参数、a_ψ表示优势值预测器、ψ表示优势值预测器的参数、a^′表示根据后续状态s'的当前动作选择策略选择的动作、N_ev表示所有可能动作的集合。

8.一种基于改进DQN的大规模电动汽车充电调度装置，其特征在于，包含：

第一信息获取模块，用于获取电动汽车的实时位置信息、剩余行驶里程、预估充电时间，以及当前状态下各个充电设备的位置信息、排队电动汽车数量、被占用总时间和空闲时间，并将其作为第一电网信息；

预期收益获取模块，用于将所述第一电网信息输入电动汽车选择网络，以获取各个电动汽车进行充电调度的预期收益值；其中，所述预期收益值为电动汽车选择网络对应的Q-value；所述电动汽车选择网络包括依次连接的细粒度特征提取模块FFEM、基于噪声的探索模块INEM、Dueling模块，以及全连接层FC；

车辆选择模块，用于根据所述预期收益值，选择当前状态下可调度的具有最小Q-value的电动汽车；

第二信息获取模块，用于将所选的电动汽车的状态向量和当前所有可用充电设备的状态信息构造为第二电网信息；

回报估计模块，用于将第二电网信息输入到充电状态选择网络，以获取当前选择的电动汽车进行充电的回报值估计；所述充电状态选择网络包括依次连接的基于卷积神经网络的特征提取模块、基于噪声的探索模块INEM，以及全连接层FC；

9.一种基于改进DQN的大规模电动汽车充电调度设备，其特征在于，包括处理器、存储器，以及存储在所述存储器内的计算机程序；所述计算机程序能够被所述处理器执行，以实现如权利要求1至7任意一项所述的一种基于改进DQN的大规模电动汽车充电调度方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至7任意一项所述的一种基于改进DQN的大规模电动汽车充电调度方法。