CN117035357A

CN117035357A - 一种电动出租车队在能源-交通中的充放电调度方法

Info

Publication number: CN117035357A
Application number: CN202311116712.5A
Authority: CN
Inventors: 庞松岭; 霍美屹; 赵海龙; 李巍; 白浩; 杨炜晨; 要若天; 徐敏; 刘通
Original assignee: Electric Power Research Institute of Hainan Power Grid Co Ltd
Current assignee: Electric Power Research Institute of Hainan Power Grid Co Ltd
Priority date: 2023-08-30
Filing date: 2023-08-30
Publication date: 2023-11-10

Abstract

本发明提供一种电动出租车队在能源‑交通中的充放电调度方法，包括以下步骤：S1：获取城市历史出租订单数据对订单、自动驾驶电动出租车、充电站进行建模；S2：建立电动出租车接单‑充电环境模型；S3：建立充电站‑电动出租车匹配模型S4：建立基于独立近端策略优化的深度强化学习网络模型；S5：基于深度强化学习网络模型进行实时充电调度，本发明提出一种电动出租车实时接单与充放电调度的决策模型，利用车队服务订单的空闲时间、考虑接单收益与车对网服务间的平衡，基于深度强化学习提取城市电动汽车的电量以及分布特征，合理的安排自动驾驶车队完成订单服务、车辆充电以及对电网放电服务，以降低车队运行成本，提高车队的收益及运营效率。

Description

一种电动出租车队在能源-交通中的充放电调度方法

技术领域

本发明涉及电动出租车调度技术领域，尤其涉及一种电动出租车队在能源-交通中的充放电调度方法。

背景技术

随着环保理念的提升和电动汽车技术的发展，电动出租车已经成为全球范围内日益普及的出行方式，同时以电动汽车为代表的新能源汽车、以自动驾驶技术为标志的智能网联车是中国的国家战略。电动出租车无排放、低噪音，对环境影响较小，符合未来城市出行的趋势，在自动驾驶的场景下可24小时不间断工作、无条件服从调度与控制指令，从而具备极高的运行效率。然而，在叫车系统中，并非每时每刻都有着繁忙的订单需求，存在大量的时间车队的大部分车辆都处于空闲状态，合理的利用这部分空闲车辆给电网提供服务可以为车队带来收益同时能给电网带来削峰填谷的效果。考虑到电池的续航里程和充电时间，出租车在行驶一定距离后需要充电，充电站的位置、电池剩余电量、充电时间以及充电价格等因素都会对电动出租车的运营效率和服务质量产生重大影响。因此，如何有效地调度电动出租车的充电、利用车队的空闲时间为电网提供放电服务，以实现最高的运营效率与收益，成为了一个亟待解决的问题。

发明内容

本发明的目的在于提供一种电动出租车队在能源-交通中的充放电调度方法，以解决上述背景技术中提出的问题。

本发明是通过以下技术方案实现的：一种电动出租车队在能源-交通中的充放电调度方法，包括以下步骤：

S1：获取城市历史出租订单数据对订单、自动驾驶电动出租车、充电站进

行建模；

S2：建立电动出租车接单-充电环境模型；

S3：建立充电站-电动出租车匹配模型；

S4：建立基于独立近端策略优化的深度强化学习网络模型；

S5：基于所述深度强化学习网络模型进行实时充电调度。

优选的，所述步骤S1具体包括：基于城市历史出租订单数据统计分析出城市出租订单的时空规律，对订单、自动驾驶电动出租车、充电站进行建模，其中订单元素包括开始时间、结束时间、开始位置、结束位置；充电站元素包括充电站位置、电价函数；电动汽车元素包括荷电状态、汽车位置以及下次空闲时间；所建立的模型如下：

其中，Order_i为订单模型，CS_k为充电站模型，AEV_j为电动出租车模型，i为订单编号，I为订单集合，k为充电站编号，为充电站集合，t为任意时间，j为电动出租车编号，/>为电动出租侧集合，/>为开始时间，/>为结束时间，/>为开始位置，/>为结束位置；/>为充电站位置，c_k(t)为电价函数；SOC_j为荷电状态，/>为汽车位置，/>为下次空闲时间。

优选的，所述步骤S2具体包括：建立电动出租车接单-充电环境模型具体包括：构建考虑充电成本、放电收益、订单服务收益、订单违约成本的目标函数：

maxR＝R^discharge+R^order+R^charge+R^breach

其中，R^discharge为放电回报，R^order为订单回报，R^charge为充电回报，R^breach为违约回报，maxR为目标函数的最大化总回报，R为总回报。

优选的，所述放电回报和所述充电回报计算方法如下：

R^discharge＝∑c_k(t)η^DCP^dischargeΔt

R^charge＝-∑c_k(t)P^chargeΔt

其中，c_k(t)为充电站的电价函数，P^discharge为额定放电功率、P^charge为额定充电功率，η^DC为放电效率，Δt为充放电时长，R^discharge为放电回报，R^charge为充电回报。

优选的，所述订单回报以及违规回报的计算方法如下：

R^breach＝-N^breach·r^penalty

其中，为订单上车点与下车点间的距离，N^breach为放弃的订单数，r^penalty为每个违约订单的违约金，R^order为订单回报，C^B为起步费用，c^DF为单位距离费用，d^init为起步距离，R^breach为违规回报，N^breach为放弃的订单数，r^penalty为每个违约订单的违约金。

优选的，所述步骤S2还具体包括，建立电动出租车进行充电、接单行为时位置、电量等参数的变化模型，所述变化模型具体包括如下：

其中，为电动汽车j的位置、SOC_j为电荷量，/>为下次空闲时间，SOC^max为最大电量，/>为充电站k的位置，/>为汽车去充电站花费的时间、/>为充电花费的时间，/>为电动汽车去充电站放电时消耗的电量，t_τ+1为下一个时间段的开始时间，为完成订单i所需的能量，/>为汽车到达上车地点所需的能量，E^Capacity为电动汽车电池容量，/>为订单结束时间，/>为订单下车地点。

优选的，所述步骤S3具体包括：对于每辆电动出租车，根据成本及收益为其选定一个用于充电最优充电站和一个用于放电最优充电站，当出租车即刻需要充电或放电时，计算该出租车到每个充电站充电所需的充电成本或放电收益，选择充电成本最低的充电站为最优充电站，选择放电收益最高的充电站为最优放电充电站。

优选的，所述步骤S4具体包括：以独立近端策略梯度作为多智体强化学习模型，将实时匹配结果与历史订单的时空规律作为特征输入深度强化学习网络模型，根据环境每个时间步环境的状态给每个充电站输出一个动作，并通过回报函数不断更新神经网络，所述每个时间步环境的状态表达如下：

其中，为第k个智能体的观测，在此多智体强化学习模型中，每个充电站作为一个智能体，拥有独立的观测及动作。g^s为转换函数，/>为充电站k的特征，τ为时间步。

优选的，所述每个时间步的动作表达如下：

其中，第k个智能体的动作，g^a为动作的转换函数，/>为充电决策，为放电决策，充电决策为电量阈值，充电决策为电量阈值，以此为最优充电，且荷电状态低于该阈值的电动汽车会收到充电指令；放电决策为放电车辆比例，以此充电站为最优放电充电站且电量排名前于该比例的汽车将会收到放电指令。

优选的，当一辆电动出租车同时收到充电指令和放电指令时，电动出租车将根据当前充电站的电价进行主观的选择，所述每个时间步的回报函数表达如下：

其中，为智能体k在时间段τ的总回报，/>为充电回报、/>为放电回报、/>为接单回报、/>为违约回报。

与现有技术相比，本发明达到的有益效果如下：

本发明提供的一种电动出租车队在能源-交通中的充放电调度方法，

(1)综合考虑了多个影响因素：本发明考虑了出租订单的规律性、充电价格的时空差异以及电动出租车的电池状态等多个影响因素，这使得我们的模型能够更全面地理解和处理电动出租车的充放电调度问题。

(2)利用深度强化学习的优势：深度强化学习具有强大的自我学习和决策能力，能够在复杂、动态和不确定性的环境中实现最优决策。本发明通过将深度强化学习应用到电动出租车的充电调度问题中，能够实现自动化、智能化的调度，提高出租车的运营效率和服务质量。

(3)降低状态和动作空间的维度：本发明将充电站视为决策单元，设计了一种新颖的基于深度强化学习的网络模型。这种方法大大降低了状态和动作空间的维度，从而提高了计算效率，使得模型能够在实际运行中快速地做出决策。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的优选实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的电动出租车队充放电的时空调度步骤流程图。

图2为本发明提供的电动出租车-充电站匹配示意图。

具体实施方式

为了使得本发明的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本发明的示例实施例。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。

在下文的描述中，给出了大量具体的细节以便提供对本发明更为彻底的理解。然而，对于本领域技术人员而言显而易见的是，本发明可以无需一个或多个这些细节而得以实施。在其他的例子中，为了避免与本发明发生混淆，对于本领域公知的一些技术特征未进行描述。

应当理解的是，本发明能够以不同形式实施，而不应当解释为局限于这里提出的实施例。相反地，提供这些实施例将使公开彻底和完全，并且将本发明的范围完全地传递给本领域技术人员。

在此使用的术语的目的仅在于描述具体实施例并且不作为本发明的限制。在此使用时，单数形式的“一”、“一个”和“所述/该”也意图包括复数形式，除非上下文清楚指出另外的方式。还应明白术语“组成”和/或“包括”，当在该说明书中使用时，确定所述特征、整数、步骤、操作、元件和/或部件的存在，但不排除一个或更多其它的特征、整数、步骤、操作、元件、部件和/或组的存在或添加。在此使用时，术语“和/或”包括相关所列项目的任何及所有组合。

为了彻底理解本发明，将在下列的描述中提出详细的结构，以便阐释本发明提出的技术方案。本发明的可选实施例详细描述如下，然而除了这些详细描述外，本发明还可以具有其他实施方式。

参见图1，一种电动出租车队在能源-交通中的充放电调度方法，包括以下步骤：

行建模；

S2：建立电动出租车接单-充电环境模型；

S3：建立充电站-电动出租车匹配模型；

S4：建立基于独立近端策略优化的深度强化学习网络模型；

S5：基于所述深度强化学习网络模型进行实时充电调度。

本实施例中，以未来自动驾驶电动汽车投入到“共享出行”的商用出租车队为新场景，提出了合理利用车队接单空闲时间进行充电和车对网放电服务的运作模型。所提出的模型考虑了出租订单的规律性以及充电价格的时空差异，同时根据电动出租车的荷电状态(SOC)、位置等调度电动出租车在空闲时间进行充放电，所提出的模型可以提高车队的总收益以及利用率，通过将充电站视为决策单元来设计一种基于多智体的深度强化学习网络模型，该模型降低了状态和动作空间的维度，进一步提高了计算效率，最后将实时的电动出租车电量即分布情况输入到训练好的模型中，模型实时为每个充电站生成一个充电电量阈值和一个放电汽车数量，电动出租车根据匹配的充电站以及自身的电量去进行充放电。

具体的，所述步骤S1具体包括：基于城市历史出租订单数据统计分析出城市出租订单的时空规律，对订单、自动驾驶电动出租车、充电站进行建模，其中订单元素包括开始时间、结束时间、开始位置、结束位置；充电站元素包括充电站位置、电价函数；电动汽车元素包括荷电状态、汽车位置以及下次空闲时间；所建立的模型如下：

具体的，所述步骤S2具体包括：建立电动出租车接单-充电环境模型具体包括：构建考虑充电成本、放电收益、订单服务收益、订单违约成本的目标函数：

maxR＝R^discharge+R^order+R^charge+R^breach

具体的，所述放电回报和所述充电回报计算方法如下：

R^discharge＝∑c_k(t)η^DCP^dischargeΔt

R^charge＝-∑c_k(t)P^chargeΔt

具体的，所述订单回报以及违规回报的计算方法如下：

R^breach＝-N^breach·r^penalty

具体的，所述步骤S2还具体包括，建立电动出租车进行充电、接单行为时位置、电量等参数的变化模型，所述变化模型具体包括如下：

其中，分别为电动汽车j的位置、SOC、下次空闲时间，SOC^max为最大电量，/>为充电站k的位置，/>为汽车去充电站花费的时间、/>为充电花费的时间，/>为电动汽车去充电站放电时消耗的电量，t_τ+1为下一个时间段的开始时间，为完成订单i所需的能量，/>为汽车到达上车地点所需的能量，E^Capacity为电动汽车电池容量，/>为订单结束时间，/>为订单下车地点。

参见图2，对于接单行为，电动出租车的电量会根据行驶里程相应减少，位置会变化为订单结束点位置；对于充电行为，电动出租车的电量会增加直至达到预设值，位置会变化为对应充电站的位置；对于放电行为，电动出租车的电量会随之减少，位置会变化为对应充电站的位置。

具体的，所述步骤S3具体包括：对于每辆电动出租车，根据成本及收益为其选定一个用于充电最优充电站和一个用于放电最优充电站，当出租车即刻需要充电或放电时，计算该出租车到每个充电站充电所需的充电成本或放电收益，选择充电成本最低的充电站为最优充电站，选择放电收益最高的充电站为最优放电充电站。

具体的，所述步骤S4具体包括：以独立近端策略梯度作为多智体强化学习模型，将实时匹配结果与历史订单的时空规律作为特征输入深度强化学习网络模型，根据环境每个时间步环境的状态给每个充电站输出一个动作，并通过回报函数不断更新神经网络，所述每个时间步环境的状态表达如下：

具体的，所述每个时间步的动作表达如下：

具体的，当一辆电动出租车同时收到充电指令和放电指令时，电动出租车将根据当前充电站的电价进行主观的选择，每个时间步的回报函数表达如下：

实例分析

实例建立三种场景，场景一使用此技术，场景二不考虑放电，场景三不考虑放电且仅在荷电状态低于最小值时进行充电。场景一通过充分考虑订单的规律性以及电价的时空差异性实现了车队充放电的时空调度，提高了车队的运营收益和车队利用率。

表格1不同场景结果对比表格

该电动出租车队充放电时空调度方案相对于场景二增加了6.5％的总收益和15.5％的车队利用率，相对于场景三增加了17.2％的总收益和18.9％的车队利用率，展现了极高的适用性和经济性。

本发明提出一种在城市规模下电动出租车实时接单与充放电调度的决策模型，利用车队服务订单的空闲时间、考虑接单收益与车对网服务间的平衡，基于多智体强化学习提取城市电动汽车的电量以及分布特征，合理的安排自动驾驶车队完成订单服务、车辆充电以及对电网放电服务，以降低车队运行成本，提高车队的收益及运营效率。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种电动出租车队在能源-交通中的充放电调度方法，其特征在于，包括以下步骤：

S1：获取城市历史出租订单数据对订单、自动驾驶电动出租车、充电站进行建模；

S2：建立电动出租车接单-充电环境模型；

S3：建立充电站-电动出租车匹配模型；

S4：建立基于独立近端策略优化的深度强化学习网络模型；

S5：基于所述深度强化学习网络模型进行实时充电调度。

2.根据权利要求1所述的一种电动出租车队在能源-交通中的充放电调度方法，其特征在于，所述步骤S1具体包括：基于城市历史出租订单数据统计分析出城市出租订单的时空规律，对订单、自动驾驶电动出租车、充电站进行建模，其中订单元素包括开始时间、结束时间、开始位置、结束位置；充电站元素包括充电站位置、电价函数；电动汽车元素包括荷电状态、汽车位置以及下次空闲时间；模型如下：

3.根据权利要求1所述的一种电动出租车队在能源-交通中的充放电调度方法，其特征在于，所述步骤S2具体包括：建立电动出租车接单-充电环境模型具体包括：构建考虑充电成本、放电收益、订单服务收益、订单违约成本的目标函数：

max R＝R^discharge+R^order+R^charge+R^breach

4.根据权利要求3所述的一种电动出租车队在能源-交通中的充放电调度方法，其特征在于，所述放电回报和所述充电回报计算方法如下：

R^discharge＝＝∑c_k(t)η^DCP^dischargeΔt

R^charge＝-∑c_k(t)P^chargeΔt

5.根据权利要求4所述的一种电动出租车队在能源-交通中的充放电调度方法，其特征在于，所述订单回报以及违规回报的计算方法如下：

R^breach＝-N^breach·r^penalty

6.根据权利要求3所述的一种电动出租车队在能源-交通中的充放电调度方法，其特征在于，所述步骤S2还具体包括，建立电动出租车进行充电、接单行为时位置、电量等参数的变化模型，所述变化模型具体包括如下：

其中，为电动汽车j的位置、SOC_j为电荷量，/>为下次空闲时间，SOC^max为最大电量，为充电站k的位置，/>为汽车去充电站花费的时间、/>为充电花费的时间，为电动汽车去充电站放电时消耗的电量，t_τ+1为下一个时间段的开始时间，/>为完成订单i所需的能量，/>为汽车到达上车地点所需的能量，E^Capacity为电动汽车电池容量，/>为订单结束时间，/>为订单下车地点。

7.根据权利要求1所述的一种电动出租车队在能源-交通中的充放电调度方法，其特征在于，所述步骤S3具体包括：对于每辆电动出租车，根据成本及收益为其选定一个用于充电最优充电站和一个用于放电最优充电站，当出租车即刻需要充电或放电时，计算该出租车到每个充电站充电所需的充电成本或放电收益，选择充电成本最低的充电站为最优充电站，选择放电收益最高的充电站为最优放电充电站。

8.根据权利要求1所述的一种电动出租车队在能源-交通中的充放电调度方法，其特征在于，所述步骤S4具体包括：以独立近端策略梯度作为多智体强化学习模型，将实时匹配结果与历史订单的时空规律作为特征输入深度强化学习网络模型，根据环境每个时间步环境的状态给每个充电站输出一个动作，并通过回报函数不断更新神经网络，所述每个时间步环境的状态表达如下：

9.根据权利要求8所述的一种电动出租车队在能源-交通中的充放电调度方法，其特征在于，所述每个时间步的动作表达如下：

其中，第k个智能体的动作，g^a为动作的转换函数，/>为充电决策，为放电决策，充电决策为电量阈值，以此为最优充电且荷电状态低于该阈值的电动汽车会收到充电指令；放电决策为放电车辆比例，以此充电站为最优放电充电站且电量排名前于该比例的汽车将会收到放电指令。

10.根据权利要求9所述的一种电动出租车队在能源-交通中的充放电调度方法，其特征在于，当一辆电动出租车同时收到充电指令和放电指令时，电动出租车将根据当前充电站的电价进行主观的选择，所述每个时间步的回报函数表达如下：

其中，为智能体k在时间段τ的总回报，/>为充电回报、/>为放电回报、为接单回报、/>为违约回报。