CN117584795A

CN117584795A - 一种充电站控制方法、装置、设备及存储介质

Info

Publication number: CN117584795A
Application number: CN202311817815.4A
Authority: CN
Inventors: 欧阳书远; 叶路清; 邓国平; 樊佳明; 邓建忠
Original assignee: Guangdong Power Grid Co Ltd; Qingyuan Power Supply Bureau of Guangdong Power Grid Co Ltd
Current assignee: Guangdong Power Grid Co Ltd; Qingyuan Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority date: 2023-12-26
Filing date: 2023-12-26
Publication date: 2024-02-23

Abstract

本发明公开了一种充电站控制方法、装置、设备及存储介质。该方法包括：将第一时间段内充电站的环境参数输入目标Q网络，得到第一时间段内充电站的环境参数对应的至少两个预测电压控制策略和每个预测电压控制策略对应的Q值，其中，充电站的环境参数包括：充电站的电压，充电站的电流以及充电站的负荷，所述目标Q网络通过目标样本集迭代训练初始Q网络得到；根据所述Q值最大的环境参数对应的预测电压控制策略生成控制指令；将所述控制指令发送至充电站中的各充电桩，以使各充电桩执行所述控制指令，通过本发明的技术方案，能够提高充电站电压系统的效率和鲁棒性。

Description

一种充电站控制方法、装置、设备及存储介质

技术领域

本发明实施例涉及计算机技术领域，尤其涉及一种充电站控制方法、装置、设备及存储介质。

背景技术

电车充电站的电压调度技术中，电压稳定器是一项传统而有效的技术。电压稳定器通过调整充电站内的变压器绕组比例，确保输出电压保持在稳定的范围内。这有助于满足不同电动车型的充电需求，提供一致可靠的充电服务。当系统检测到电压超出设定范围时，电压稳定器能够自动进行调整，保持输出电压在安全和合适的水平。

传统技术的客观缺点之一是缺乏自适应性和动态性，无法有效适应充电站电压系统不断变化的工作条件。基于电压稳定器调整充电站内的电压，难以应对复杂的充电站电压系统动态。这种刚性的调度策略无法灵活地适应负荷波动、充电站状态变化以及其他系统变化，导致电压控制的效果有限。

发明内容

本发明实施例提供一种充电站控制方法、装置、设备及存储介质，能够解决上述问题中的至少一种，提高充电站电压系统的效率和鲁棒性。

根据本发明的一方面，提供了一种充电站控制方法，包括：

将第一时间段内充电站的环境参数输入目标Q网络，得到第一时间段内充电站的环境参数对应的至少两个预测电压控制策略和每个预测电压控制策略对应的Q值，其中，充电站的环境参数包括：充电站的电压，充电站的电流以及充电站的负荷，所述目标Q网络通过目标样本集迭代训练初始Q网络得到；

根据所述Q值最大的环境参数对应的预测电压控制策略生成控制指令；

将所述控制指令发送至充电站中的各充电桩，以使各充电桩执行所述控制指令。

根据本发明的另一方面，提供了一种充电站控制装置，该充电站控制装置包括：

预测电压控制策略确定模块，用于将第一时间段内充电站的环境参数输入目标Q网络，得到第一时间段内充电站的环境参数对应的至少两个预测电压控制策略和每个预测电压控制策略对应的Q值，其中，充电站的环境参数包括：充电站的电压，充电站的电流以及充电站的负荷，所述目标Q网络通过目标样本集迭代训练初始Q网络得到；

控制指令生成模块，用于根据所述Q值最大的环境参数对应的预测电压控制策略生成控制指令；

控制指令发送模块，用于将所述控制指令发送至充电站中的各充电桩，以使各充电桩执行所述控制指令。

根据本发明的另一方面，提供了一种电子设备，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例所述的充电站控制方法。

根据本发明的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现本发明任一实施例所述的充电站控制方法。

本发明实施例通过将第一时间段内充电站的环境参数输入目标Q网络，得到第一时间段内充电站的环境参数对应的至少两个预测电压控制策略和每个预测电压控制策略对应的Q值，其中，充电站的环境参数包括：充电站的电压，充电站的电流以及充电站的负荷，所述目标Q网络通过目标样本集迭代训练初始Q网络得到；根据所述Q值最大的环境参数对应的预测电压控制策略生成控制指令；将所述控制指令发送至充电站中的各充电桩，以使各充电桩执行所述控制指令，提高充电站电压系统的效率和鲁棒性。

应当理解，本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是本发明实施例中的一种充电站控制方法的流程图；

图2是本发明实施例中DQN神经网络的结构示意图；

图3是本发明实施例中的一种充电站控制装置的结构示意图；

图4是本发明实施例中的一种电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

可以理解的是，在使用本公开各实施例公开的技术方案之前，均应当依据相关法律法规通过恰当的方式对本公开所涉及个人信息的类型、使用范围、使用场景等告知用户并获得用户的授权。

实施例一

图1为本发明实施例提供的一种充电站控制方法的流程图，本实施例可适用于充电站控制的情况，该方法可以由本发明实施例中的充电站控制装置来执行，该装置可采用软件和/或硬件的方式实现，如图1所示，该方法具体包括如下步骤：

S110，将第一时间段内充电站的环境参数输入目标Q网络，得到第一时间段内充电站的环境参数对应的至少两个预测电压控制策略和每个预测电压控制策略对应的Q值，其中，充电站的环境参数包括：充电站的电压，充电站的电流以及充电站的负荷，所述目标Q网络通过目标样本集迭代训练初始Q网络得到。

具体的，将第一时间段内充电站的环境参数输入目标Q网络，得到第一时间段内充电站的环境参数对应的至少两个预测电压控制策略和每个预测电压控制策略对应的Q值的方式可以为：采集第一时间段内充电站的环境参数，对所述第一时间段内充电站的环境参数进行检测，若第一时间段内充电站的环境参数中存在异常数据，则剔除异常数据，得到剔除异常数据后的第一时间段内充电站的环境参数，将剔除异常数据后的第一时间段内充电站的环境参数输入目标Q网络，得到第一时间段内充电站的环境参数对应的至少两个预测电压控制策略和每个预测电压控制策略对应的Q值。

可选的，在将第一时间段内充电站的环境参数输入目标Q网络，得到第一时间段内充电站的环境参数对应的至少两个预测电压控制策略和每个预测电压控制策略对应的Q值之前，还包括：

获取第一时间段内充电站的电压和充电站的电流；

根据第一时间段内充电站的电压和充电站的电流确定第一时间段内充电站的负荷。

具体的，根据第一时间段内充电站的电压和充电站的电流确定第一时间段内充电站的负荷的方式可以为：根据第一时间段内充电站的电压和充电站内每个充电桩的输出电流的乘积确定第一时间段内充电站的负荷。

可选的，根据第一时间段内充电站的电压和充电站的电流确定第一时间段内充电站的负荷，包括：

基于如下公式确定充电站的负荷：

其中，U为充电站在第一段时间内的电压，I_j为第j个充电桩的输出电流，J为充电站中充电桩的总数。

可选的，通过目标样本集迭代训练初始Q网络，包括：

获取目标样本集，其中，所述目标样本集包括：充电站的环境参数样本；

将目标样本集中的充电站的环境参数样本输入初始Q网络，得到环境参数样本对应的至少两个预测电压控制策略和每个预测电压控制策略对应的Q值；

根据所述Q值最大的环境参数样本对应的预测电压控制策略生成控制指令；

将所述控制指令发送至充电站中的各充电桩，以使各充电桩执行所述控制指令，得到充电站的第一环境参数；

根据充电站的第一环境参数和奖励函数确定Q_new；

根据Q_new和Q的差值对初始Q网络的参数进行调整；

返回执行将所述控制指令发送至充电站中的各充电桩，以使各充电桩执行所述控制指令，得到充电站的第一环境参数的操作，直至得到目标Q网络。

其中，所述预测电压控制策略可以为提高充电站电压、保持充电站电压以及降低充电站电压中的任一种。

具体的，获取目标样本集的方式可以为：采集充电站的历史电压、电流和负荷数据，对采集到的历史电压、电流和负荷数据进行检测，若存在异常数据，则剔除这部分异常数据，并对剔除异常数据后的数据进行标准化，得到目标样本集。

需要说明的是，采集的电压、负荷、电流等参数可能会由于设备问题导致数据出现异常，但是多数数据是可以使用的，因此需要剔除这部分异常数据，来保证数据的稳定性和准确性。

此外，对数据进行标准化，将各个特征缩放到相似的范围，以避免某些特征对模型训练的主导影响。在本发明实施例中，由于各个时间段的电压使用情况不同，负载和电流也会有相应的变化，为了减弱这种因变化带来的差异，因此统一将所有数据进行标准化，也就是统一缩放到0-1这个区间内，使得其差异不至于过大。

接下来，对处理过的数据进行分类划分，共分为“0：00-8：00”、“8：00-12：00”、“12：00-17：00”、“17：00-24：00”这4个时间段，分别记录每个时间段内每个充电站的电压、电流以及负荷情况。并将所有这些数据存储于数据库中。

采集的数据应覆盖多个时间段，以确保模型具有足够的泛化能力。数据可以从充电站监控设备来源获取。

可选的，根据充电站的第一环境参数和奖励函数确定Q_new，包括：

Q_new＝Q(s_t,b_t)+α*(r_t+γmax(Q(s_t+1,b_t))-Q(s_t,b_t))；

其中，s_t为采取预测电压控制策略前的环境参数，Q(s_t,b_t)为t时刻的Q值，s_t+1为采取预测电压控制策略后的环境参数，Q(s_t+1,b_t)为t+1时刻的Q值，b_t为采取的预测电压控制策略的编码号，r_t为采取预测电压控制策略后产生的环境反馈奖励，α是学习率，γ是折扣因子。

在一个具体的例子中，构建数据集；对应时间段，将环境反馈奖励、环境参数以及电压控制策略进行对齐，存储入历史数据库。这一过程收集共计10000条数据集，包括采取预测电压控制策略前的环境参数(s_t)、采取的预测电压控制策略的编码号(b_t)、采取预测电压控制策略后产生的环境反馈奖励(r_t)、以及采取预测电压控制策略后的环境参数(s_t+1)。

其中，s_t具体表示为：

s_t＝{V₁,V₂,…V_J,L₁,L₂,…L_J,I₁,I₂,…I_J}；

其中，J为充电站中充电桩的总数，V₁,V₂,…V_J分别为充电站中每个充电桩的电压，L₁,L₂,…L_J分别为充电站中每个充电桩的负荷，I₁,I₂,…I_J分别为充电站中每个充电桩的电流。

b_t为：

b_t＝{B₁,B₂,B₃}；

B₁为提高充电站电压，B₂为保持充电站电压，B₃为降低充电站电压。

r_t为：

r_t＝{R_t1,R_t2,R_t3,…R_tJ}；

其中，R_t1,R_t2,R_t3,…R_tJ分别为充电站中每个充电桩做出供电调整后产生的环境反馈奖励。

将这些数据传递进DataLoad中构建数据集，并设置参数epoch为1000个，batch_size为600，按照8比2的比例划分为训练集和测试集；

对于电压调度问题，在本发明实施例中选择深度强化学习算法，例如可以是，采用深度Q网络(DQN)处理上述数据(初始Q网络)。DQN是一种深度学习与强化学习相结合的算法，能够处理状态空间较大的问题，适用于充电站电压系统这类复杂动态系统。

DQN的核心是深度神经网络、用于估计状态-动作对的值函数(Q值函数)。神经网络的输入是充电站电压系统的状态环境参数，输出是每个可能动作的对应Q值。

如图2所示，在DQN神经网络中，主要包含三层模型，分别是：

输入层：输入层节点数等于状态空间的维度。每个节点代表充电站电压系统的一个状态参数。这一层的作用就是用于接收充电站电压系统相关的历史数据，包括电压水平(V)、负荷水平(L)、电流信息(I)等。在这一层中，主要用的算子是LN+Linear，其中，LN算子的含义是用于将数据进行整合，使得数据不至于出现过大、过小的情况，Linear作用是线性连接，用于将数据线性转换。

隐藏层：在这一层中主要将数据进行非线性特征学习。隐藏层的节点数和层数可根据问题复杂度进行调整。主要用到的算子是Relu+LN+Dropout，其中，Relu的作用是将数据映射到非线性空间，以获取更多的数据特征，Dropout算子的作用就是剪枝操作，用于抑制部分需要学习的神经元，以求加快训练速度。

输出层：输出层的节点数等于动作空间的维度，每个节点对应一个可能的调度动作。输出的Q值代表在给定状态下执行相应动作的预期回报。在这一层中，主要用到的算子是Linear+Output。Output表示输出函数，用于输出Q值。具体表示公式如下：

Q(s_t,b_t)＝Output(s_t,b_t)

其中s_t表示各项环境参数，包括电压水平(V)、负荷水平(L)、电流信息(I)。b_t表示采取的预测电压控制策略。

并基于奖励函数调整Q值大小，使得模型的预测Q值逐渐接近真实Q值。优化的目标是最大化累积奖励，使得模型能够在不同的充电站电压系统状态下做出合理的电压调度决策。具体实现如下：

Q_new＝Q(s_t,b_t)+α*(r_t+γmax(Q(s_t+1,b_t))-Q(s_t,b_t))

其中，s_t为采取预测电压控制策略前的环境参数，Q(s_t,b_t)为t时刻的Q值，s_t+1为采取预测电压控制策略后的环境参数，Q(s_t+1,b_t)为t+1时刻的Q值，b_t为采取的预测电压控制策略的编码号，r_t为采取预测电压控制策略后产生的环境反馈奖励，α是学习率，γ是折扣因子，这个更新规则使得模型逐步逼近真实的最优Q值，也就是使得每一步的状态都满足预期要求。

可选的，所述采取预测电压控制策略后产生的环境反馈奖励等于电压奖励和系统损失惩罚之和。

本发明实施例中，采取预测电压控制策略后产生的环境反馈奖励的数学表示可以定义为：

R_t＝R_voltage-P_loss；

其中，R_voltage为电压奖励，P_loss为系统损失惩罚。

环境反馈奖励为强化学习算法提供了明确的目标和反馈机制使其能够学习充电站电压系统的动态特性，实现智能的电压调度。

可选的，所述电压奖励基于如下公式确定：

其中，R_voltage为电压奖励，V_t为充电桩的电压,V_target为预期电压，w为控制奖励斜率的参数。

其中，所述电压奖励为电压调整后维持在特定范围内的奖励。

可选的，系统损失惩罚基于如下公式确定：

其中，P_loss为系统损失惩罚，U_i为第i个电车所需要的转换后的电压，U_ix为第i个电车对应充电桩的输出电压，n为充电站中正在充电的电车总数，k为控制惩罚强度的参数。

对于充电桩供电时，由于供电桩的电压需要转换后才能供电车使用，因此在转换过程中会损失一定的能量。系统损失惩罚，为对这种导致系统损失进行的惩罚。

S120，根据所述Q值最大的环境参数对应的预测电压控制策略生成控制指令。

其中，所述控制指令包括：每个充电桩对应的控制指令。

具体的，根据所述Q值最大的环境参数对应的预测电压控制策略生成控制指令的方式可以为：若Q值最大的环境参数对应的预测电压控制策略为提高充电站电压，则生成提高充电站电压的控制指令。若Q值最大的环境参数对应的预测电压控制策略为保持充电站电压，则生成保持充电站电压的控制指令。若Q值最大的环境参数对应的预测电压控制策略为降低充电站电压，则生成降低充电站电压的控制指令。

S130，将所述控制指令发送至充电站中的各充电桩，以使各充电桩执行所述控制指令。

具体的，将所述控制指令发送至充电站中的各充电桩，以使各充电桩执行所述控制指令的方式可以为：若将提高充电站电压的控制指令发送至充电站中的各充电桩，则各充电桩执行提高充电站电压的控制指令；若将保持充电站电压的控制指令发送至充电站中的各充电桩，则各充电桩执行保持充电站电压的控制指令；若将降低充电站电压的控制指令发送至充电站中的各充电桩，则各充电桩执行降低充电站电压的控制指令。

通过本发明实施例通过与充电站电压系统的实时交互学习，并根据环境的变化调整决策，具有自适应性和动态性。目标Q网络能够根据历史数据和奖励信号优化电压调度策略，有效处理充电站电压系统的复杂性和不确定性。这种智能化的调度系统能够更灵活、准确地维持充电站的稳定性，提高充电站电压系统的效率和鲁棒性。

在一个具体的例子中，以XX城市为例，XX城市共建有公共充电站1200多座，每座充电桩的输出电压范围在200V-1000V之间，将每个时间段内的环境参数输入Q神经网络，并与预期电压进行对比，结果如下表：

充电站1如表1所示：

表1

充电站2如表2所示：

表2

时间	负荷	预期电压调整	DQN网络预测
				0：00-8：00	2kW-7kW	200V-240V	300V
8：00-12：00	7KW-22KW	240V-500V	500V
				12：00-17：00	22KW-250KW	500V-700V	561V
17：00-24：00	22KW-250KW	500V-700V	565V

充电站3如表3所示：

表3

时间	负荷	预期电压调整	DQN网络预测
				0：00-8：00	2kW-7kW	200V-240V	225V
8：00-12：00	7KW-22KW	240V-500V	255V
				12：00-17：00	>250KW	700V-1000V	892V
17：00-24：00	22KW-250KW	500V-700V	556v

由上述实施例可以看出：

本发明实施例通过结合深度强化学习网络与统计模型，实现了充电站配电电压的调整。系统能通过对充电桩每个时间段的数据进行采集和处理，将其存储于历史数据库。控制对充电站的电压输出创建动作空间，并依据特定调整后的电压以及系统损失做出奖励反馈。结合统计模型，为深度强化学习网络提供了一个高数据驱动的起点，进而增强调度效果。在线学习和模型动态更新，确保模型的市场敏感性，提升决策效率和销售成效。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

本实施例的技术方案，通过将第一时间段内充电站的环境参数输入目标Q网络，得到第一时间段内充电站的环境参数对应的至少两个预测电压控制策略和每个预测电压控制策略对应的Q值，其中，充电站的环境参数包括：充电站的电压，充电站的电流以及充电站的负荷，所述目标Q网络通过目标样本集迭代训练初始Q网络得到；根据所述Q值最大的环境参数对应的预测电压控制策略生成控制指令；将所述控制指令发送至充电站中的各充电桩，以使各充电桩执行所述控制指令，提高充电站电压系统的效率和鲁棒性。

实施例二

图3为本发明实施例提供的一种充电站控制装置的结构示意图。本实施例可适用于充电站控制的情况，该装置可采用软件和/或硬件的方式实现，该装置可集成在任何提供充电站控制功能的设备中，如图3所示，所述充电站控制装置具体包括：预测电压控制策略确定模块310、控制指令生成模块320和控制指令发送模块330。

其中，预测电压控制策略确定模块，用于将第一时间段内充电站的环境参数输入目标Q网络，得到第一时间段内充电站的环境参数对应的至少两个预测电压控制策略和每个预测电压控制策略对应的Q值，其中，充电站的环境参数包括：充电站的电压，充电站的电流以及充电站的负荷，所述目标Q网络通过目标样本集迭代训练初始Q网络得到；

上述产品可执行本发明任意实施例所提供的方法，具备执行方法相应的功能模块和有益效果。

实施例三

图4示出了可以用来实施本发明的实施例的电子设备10的结构示意图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本发明的实现。

如图4所示，电子设备10包括至少一个处理器11，以及与至少一个处理器11通信连接的存储器，如只读存储器(ROM)12、随机访问存储器(RAM)13等，其中，存储器存储有可被至少一个处理器执行的计算机程序，处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或者从存储单元18加载到随机访问存储器(RAM)13中的计算机程序，来执行各种适当的动作和处理。在RAM 13中，还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出(I/O)接口15也连接至总线14。

电子设备10中的多个部件连接至I/O接口15，包括：输入单元16，例如键盘、鼠标等；输出单元17，例如各种类型的显示器、扬声器等；存储单元18，例如磁盘、光盘等；以及通信单元19，例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理，例如充电站控制方法。

在一些实施例中，充电站控制方法可被实现为计算机程序，其被有形地包含于计算机可读存储介质，例如存储单元18。在一些实施例中，计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM13并由处理器11执行时，可以执行上文描述的充电站控制方法的一个或多个步骤。备选地，在其他实施例中，处理器11可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行充电站控制方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中，计算机可读存储介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。备选地，计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在电子设备上实施此处描述的系统和技术，该电子设备具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本发明的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种充电站控制方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，通过目标样本集迭代训练初始Q网络，包括：

根据充电站的第一环境参数和奖励函数确定Q_new；

根据Q_new和Q的差值对初始Q网络的参数进行调整；

3.根据权利要求1所述的方法，其特征在于，根据充电站的第一环境参数和奖励函数确定Q_new，包括：

Q_new＝Q(s_t,b_t)+α*(r_t+γmax(Q(s_t+1,b_t))-Q(s_t,b_t))；

4.根据权利要求3所述的方法，其特征在于，所述采取预测电压控制策略后产生的环境反馈奖励等于电压奖励和系统损失惩罚之和。

5.根据权利要求4所述的方法，其特征在于，所述电压奖励基于如下公式确定：

6.根据权利要求4所述的方法，其特征在于，系统损失惩罚基于如下公式确定：

7.根据权利要求1所述的方法，其特征在于，在将第一时间段内充电站的环境参数输入目标Q网络，得到第一时间段内充电站的环境参数对应的至少两个预测电压控制策略和每个预测电压控制策略对应的Q值之前，还包括：

获取第一时间段内充电站的电压和充电站的电流；

8.一种充电站控制装置，其特征在于，包括：

9.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的充电站控制方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的充电站控制方法。