CN116542498B

CN116542498B - 基于深度强化学习的电池调度方法、系统、装置及介质

Info

Publication number: CN116542498B
Application number: CN202310821537.3A
Authority: CN
Inventors: 李朝; 刘玄武; 肖劼; 任国奇
Original assignee: Hangzhou Yugu Technology Co ltd
Current assignee: Hangzhou Yugu Technology Co ltd
Priority date: 2023-07-06
Filing date: 2023-07-06
Publication date: 2023-11-24
Anticipated expiration: 2043-07-06
Also published as: CN116542498A

Abstract

本发明公开了基于深度强化学习的电池调度方法、系统、装置及介质，包括：基于换电柜的当前使用特征数据和当前电池特征数据确定当前强化学习参数；获取目标点位的第一电池分布数量；根据所述历史电池特征数据估算第二电池分布数量；基于所述第一电池分布数量和所述第二电池分布数量，确定所述目标点位的电池分布数量。本发明通过充分利用多重特征维度信息，并利用多重特征维度信息和深度强化学习模型输出各城市各换电柜点位中不同电池类型数量分布策略，减少电池分布的方差，能够在中国各城市内进行不同类型电池的抽取和调拨，使换电柜中不同电池类型数量满足骑手的需求，节省成本的同时，也为骑手派单提供有效的保障。

Description

基于深度强化学习的电池调度方法、系统、装置及介质

技术领域

本申请涉及一种换电柜电池调度技术领域，尤其涉及一种基于深度强化学习的电池调度方法、系统、装置及介质。

背景技术

换电柜是目前市场民用需求很大的供电动车骑手将欠压电池直接替换满电电池的共享系统。该系统具有对多种类型电池同时充电的功能。由此会涉及到换电柜中不同类型电池抽取和调拨，为最大化满足骑手派单的需求，通常将柜中不同类型电池数量最大化。然而，该方法存在一些缺点，其一，不能有效节约电池成本，其二，给电池产能增加负担，其三，骑手无法进行有效退电（没有空位置放入手中电池）。

因此，如何统筹规划城市内各电柜中不同类型电池数量是本申请要解决的问题。

发明内容

本申请的目的在于提供一种基于深度强化学习的电池调度方法、系统、装置及介质，以至少解决相关技术中如何统筹规划城市内各电柜中不同类型电池数量的问题。

本申请第一方面提供一种基于深度强化学习的电池调度方法，包括：

基于换电柜的当前使用特征数据和当前电池特征数据确定当前强化学习参数，其中，当前强化学习参数包括当前状态参数、当前动作参数和当前奖励值；

采用基于换电柜的历史使用特征数据和历史电池特征数据预先训练好的深度强化学习网络模型，根据当前强化学习参数获取目标点位的第一电池分布数量；

根据历史电池特征数据估算第二电池分布数量；

基于第一电池分布数量和第二电池分布数量，确定目标点位的电池分布数量。

在一个实施例中，基于换电柜的当前使用特征数据和当前电池特征数据确定当前强化学习参数包括：

根据当前使用特征数据确定当前状态参数，其中，当前使用特征数据包括换电柜的使用特征数据和换电柜与骑手交互特征数据；和/或

依据当前电池特征数据对电池进行分类，根据不同类型电池的数量确定当前动作参数；和/或

确定当前使用特征数据和换电柜用户流量之间的相关性系数，基于相关性系数和预设权重确定当前奖励值。

在一个实施例中，根据历史电池特征数据估算第二电池分布数量包括：

采集设定周期内换电柜的历史电池特征数据，并对历史电池特征数据进行分析，得到历史电池特征数据在各个子周期内的分布参数；

根据分布参数估算下一个周期内换电柜的第二电池分布数量。

在一个实施例中，基于换电柜的历史使用特征数据和历史电池特征数据预先训练好的深度强化学习网络模型包括：

根据换电柜的历史使用特征数据确定历史强化学习参数，其中，历史强化学习参数包括历史状态参数、历史动作参数和历史奖励值；

构建以历史强化学习参数为输入，以预测每个状态参数下选择不同动作参数的概率为输出的深度强化学习网络模型；

根据历史强化学习参数对深度强化学习网络模型进行训练，直至满足预设条件，得到预先训练好的深度强化学习网络模型。

在一个实施例中，以历史强化学习参数为输入包括：

对历史状态参数进行聚类处理，得到聚类后的历史状态参数；

根据聚类后的历史状态参数更新历史动作参数和历史奖励值；

将聚类后的历史状态参数，以及更新后的历史动作参数和历史奖励值作为深度强化学习网络模型的输入。

在一个实施例中，得到预先训练好的深度强化学习网络模型包括：

根据历史强化学习参数对深度强化学习网络模型进行训练，直至满足预设条件，得到初始电池分布数量；

响应于初始电池分布数量与换电柜中实际电池分布数量的差值大于等于预设阈值，对初始电池分布数量进行优化处理；

根据优化处理后的初始电池分布数量确定最终电池分布数量，得到预先训练好的深度强化学习网络模型。

在一个实施例中，对初始电池分布数量进行优化处理包括：

根据初始电池分布数量获取对应初始状态参数下采用动作参数的初始动作价值，并根据初始动作价值确定初始期望回报值；

根据初始期望回报值，通过贪心策略或确定性策略对初始电池分布数量进行优化处理。

在一个实施例中，根据初始期望回报值，通过贪心策略对初始电池分布数量进行优化处理包括：

在初始状态参数下，根据深度强化学习网络模型训练得到初始状态参数下采用新动作参数的第一动作价值；

将第一动作价值所对应的期望回报值与初始期望回报值进行比较，

若第一动作价值所对应的期望回报值大于等于初始期望回报值，则将第一动作价值所对应的电池分布数量作为最终电池分布数量。

在一个实施例中，根据初始期望回报值，通过确定性策略对初始电池分布数量进行优化处理包括：

在任意状态参数下，根据深度强化学习网络模型训练得到任意状态参数下采用动作参数的第二动作价值；

将第二动作价值所对应的期望回报值与初始期望回报值进行比较，

若第二动作价值所对应的期望回报值均大于等于初始期望回报值，则将第二动作价值所对应的电池分布数量作为最终电池分布数量。

本申请第二方面提供一种基于深度强化学习的电池调度系统，包括：

参数获取模块，用于基于换电柜的当前使用特征数据和当前电池特征数据确定当前强化学习参数，其中，当前强化学习参数包括当前状态参数、当前动作参数和当前奖励值；

第一电池分布获取模块，用于采用基于换电柜的历史使用特征数据和历史电池特征数据预先训练好的深度强化学习网络模型，根据当前强化学习参数获取目标点位的第一电池分布数量；

第二电池分布获取模块，用于根据历史电池特征数据估算第二电池分布数量；

电池分布数量获取模块，用于基于第一电池分布数量和第二电池分布数量，确定目标点位的电池分布数量。

本申请第三方面提供一种基于深度强化学习的电池调度装置，包括存储器和一个或多个处理器，存储器中存储有可执行代码，一个或多个处理器执行可执行代码时，用于实现上述任一项的基于深度强化学习的电池调度方法。

本申请第四方面提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述任一项的基于深度强化学习的电池调度方法。

本申请实施例提供的一种基于深度强化学习的电池调度方法、系统、装置及介质至少具有以下技术效果。

通过充分利用多重特征维度信息，并利用多重特征维度信息和深度强化学习模型输出各城市各换电柜点位中不同电池类型数量分布策略，减少电池分布的方差，能够在中国各城市内进行不同类型电池的抽取和调拨，使换电柜中不同电池类型数量满足骑手的需求，节省成本的同时，也为骑手派单提供有效的保障。

本申请的一个或多个实施例的细节在以下附图和描述中提出，以使本申请的其他特征、目的和优点更加简明易懂。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例提供的基于深度强化学习的电池调度方法的流程示意图；

图2为本申请实施例提供的构建深度强化学习网络模型的流程示意图；

图3为本申请实施例提供的以历史强化学习参数为输入的流程示意图；

图4为本申请实施例提供的得到预先训练好的深度强化学习网络模型的流程示意图；

图5为本申请实施例提供的对初始电池分布数量进行优化处理的流程示意图；

图6为本申请实施例提供的贪心策略的流程示意图；

图7为本申请实施例提供的确定性策略的流程示意图；

图8为本申请实施例提供的估算第二电池分布数量的流程示意图；

图9为本申请实施例提供的基于深度强化学习的电池调度系统的框图；

图10为根据本申请实施例提供的电子设备的内部结构示意图。

具体实施方式

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本申请及其应用或使用的任何限制。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

显而易见地，下面描述中的附图仅仅是本申请的一些示例或实施例，对于本领域的普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图将本申请应用于其他类似情景。此外，还可以理解的是，虽然这种开发过程中所作出的努力可能是复杂并且冗长的，然而对于与本申请公开的内容相关的本领域的普通技术人员而言，在本申请揭露的技术内容的基础上进行的一些设计，制造或者生产等变更只是常规的技术手段，不应当理解为本申请公开的内容不充分。

在本申请中提及“实施例”意味着，结合实施例描述的特定持征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是，本申请所描述的实施例在不冲突的情况下，可以与其它实施例相结合。

除非另作定义，本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的”一”、“一个”、“一种”、“该”等类似词语并不表示数量限制，可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形，意图在于覆盖不排他的包含；例如包含了一系列步骤或模块（单元）的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可以还包括没有列出的步骤或单元，或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电气的连接，不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象，不代表针对对象的特定排序。

换电柜的换电项目一般会根据不同阶段的需求采取不同的电池数量方案。在项目前期，由于换电柜数量较少、可容纳最大电池数量有限，并且骑手手中没有任何电池，所以可采用最大化换电柜中不同类型电池数的方案，这样能降低项目成本和电池产能负担，同时不需考虑骑手退电难的问题。

但随着各城市骑手数量的增长，项目成本、电池产能负担及骑手退电难的问题开始出现。在换电项目中期，可以根据换电柜订单数量与电池数量的供需关系，配置不同类型电池的数量方案，主要考虑满足各城市换电较紧急区域的需求，尽量满足骑手的换电需求。然而，如果只考虑骑手订单与电池数量的供需关系，而不考虑区域骑手数量和柜子历史换电订单数量等其他因素，可能导致不同类型电池数量分配不均衡，造成电池分布方差较大。

在实际环境中，电池调度与决策是一个复杂的问题。仅仅依靠最大化电池数量或换电订单数量与电池数量的供需关系来进行决策，无法全面考虑电池的各方面需求。

基于上述情况，本申请实施例提供了一种基于深度强化学习的电池调度方法、系统、装置及介质。

第一方面，本申请实施例提供了一种基于深度强化学习的电池调度方法，图1为本申请实施例提供的基于深度强化学习的电池调度方法的流程示意图，如图1所示，该方法包括以下步骤：

步骤S101、基于换电柜的当前使用特征数据和当前电池特征数据确定当前强化学习参数，其中，当前强化学习参数包括当前状态参数、当前动作参数和当前奖励值。

步骤S101中根据当前使用特征数据确定当前状态参数，其中，当前使用特征数据包括换电柜的使用特征数据和换电柜与骑手交互特征数据。

换电柜的当前使用特征数据包括但不限于换电柜中电池电量、换电柜中电池数量、换电订单次数、每个换电柜的充电和放电次数、换电柜的故障和报修情况；换电柜与骑手交互特征数据包括但不限于骑手标签信息，每个更换电柜开门的时间、持续时间以及对应的骑手身份信息，每次骑手进行换电的时间、电池更换数量以及相关的换电订单信息。

在一个实施例中，当前状态参数表示为State(S)，例如表1：

表1 当前状态参数S

电池电量	换电柜中电池数量	换电订单次数	骑手标签
				80	5	231	1
90	8	265	0

由上述表1中可知，当前状态参数S为多个特征数据的集合，每一行所构成行向量，当前状态参数S表示为多行向量。

和/或

依据当前电池特征数据对电池进行分类，根据不同类型电池的数量确定当前动作参数。

本申请实施例中电池特征参数可选为电压，按照电压对电池分类，离散化换电柜中不同类型电池的数量，构建得到有限个离散的当前动作参数Action(A)。

在一个实施例中，电池按照电压分类有两种类型，假设第一种电压类型的电池为type1，第二种电压类型的电池为type2，则换电柜中当前动作参数为：

其中，，/>，/> ，box_num表示换电柜中能够容纳电池的数量（上式中变量全部为整数）。

例如：表示type1类型的电池数量有1个，type2电池类型的数量有3个。

和/或

在一个实施例中，确定当前使用特征数据和换电柜用户流量之间的相关性系数的计算公式采用：

其中，X为包括各个维度的当前使用特征数据，Y为换电柜用户流量，Cov(X,Y)为X与Y的协方差，Var[X]为X的方差，Var[Y]为Y的方差。相关系数的值域在[-1,1]之间。当相关系数越接近1时，说明两个变量之间的正线性关系越强；当相关系数越接近-1时，说明两个变量之间的负线性关系越强；当相关系数接近0时，说明两个变量之间不存在线性关系。

根据相关性系数从大到小的顺序对当前使用特征数据中的特征数据进行排序。

根据预设数量和排序从当前使用特征数据中选择相关性系数高的特征数据。本申请实施例中选取相关性系数top5特征数据。

对选取的特征数据进行权重配置，确定当前奖励值Reward(R)。

例如：对选取的相关性系数top5特征数据，设置权重分别为W1、W2、W3、W4和W5，每个换电柜以上5种特征值乘以对应权重W1、W2、W3、W4和W5，即可得到奖励值R。其中，W1+W2+W3+W4+W5=1，0<W1<1，0<W2<1，0<W3<1，0<W4<1，0<W5<1。

本申请综合考虑了换电柜的多重维度特征数据，能够提供更丰富的状态表示，包括当前电池状态、用户行为模式、环境变化等信息。深度强化学习模型可以学习到这些高维状态的关联性和模式，更准确地评估和预测不同动作的潜在效果，提高对状态的理解和抽象能力，进而更准确地输出各城市各换电柜点位不同电池类型数量分布。

步骤S102、采用基于换电柜的历史使用特征数据和历史电池特征数据预先训练好的深度强化学习网络模型，根据当前强化学习参数获取目标点位的第一电池分布数量。

图2为本申请实施例提供的构建深度强化学习网络模型的流程示意图，如图2所示，在图1所示流程的基础上，基于换电柜的历史使用特征数据和历史电池特征数据预先训练好的深度强化学习网络模型包括以下步骤：

步骤S201、根据换电柜的历史使用特征数据确定历史强化学习参数，其中，历史强化学习参数包括历史状态参数、历史动作参数和历史奖励值。

步骤S201中的历史强化学习参数的定义及特征数据的选择与步骤S101相同，区别仅在于参数获取时间的不同，此处不再赘述。

步骤S202、构建以历史强化学习参数为输入，以预测每个状态参数下选择不同动作参数的概率为输出的深度强化学习网络模型。

图3为本申请实施例提供的以历史强化学习参数为输入的流程示意图，如图3所示，在图2所示流程的基础上，以历史强化学习参数为输入包括以下步骤：

步骤S301、对历史状态参数进行聚类处理，得到聚类后的历史状态参数。

步骤S301中历史状态参数过多会导致深度强化学习网络模型的学习训练过程难以收敛，因此需要预先利用聚类算法对历史状态参数进行量化，获取有限个历史状态参数S的类别。本申请实施例中优选采用MiniBatchKMeans算法，与传统的k均值算法相比，MiniBatchKMeans算法通过引入小批量随机采样（mini-batch）的方式来加速聚类过程，并适用于处理大规模数据集。

本申请实施例中，采用MiniBatchKMeans算法，设置聚类数量k的范围是[2,50]，以及每个小批量样本的大小batch_size为256；

随机选取k个样本作为初始聚类中心点，从数据集中随机选择一个大小为batch_size的小批量样本，对于每个小批量样本，利用calinski_harabasz_score指标评价k值得好坏，用类内各点与聚类中心的距离平方和来度量类内的紧密度（类内距离），用各个聚类中心与数据集中心点的距离平方和来度量数据集的分离度（类间距离）。

分数，其中，B_k为类间的协方差矩阵，W_k为类内数据的协方差矩阵。

类间的协方差矩阵B_k表示为：；

类内数据的协方差矩阵W_k表示为：；

其中，c_q表示类q的中心点，c_e表示数据集的中心点，n_q表示类q中的数据数目，C_q表示类q的数据集合。

使用calinski_harabasz_score指标可以评估不同k值对聚类效果的好坏，分数越高表示聚类效果越好，最终，本申请实施例选取score较大时的k等于21，即为聚类效果比较好的情况。

步骤S302、根据聚类后的历史状态参数更新历史动作参数和历史奖励值。

步骤S303、将聚类后的历史状态参数，以及更新后的历史动作参数和历史奖励值作为深度强化学习网络模型的输入。

继续参照图2，在步骤S202之后执行步骤S203，具体如下。

步骤S203、根据历史强化学习参数对深度强化学习网络模型进行训练，直至满足预设条件，得到预先训练好的深度强化学习网络模型。

在步骤S203中深度强化学习网络模型包含两部分：深度学习网络和强化学习模型。其中，深度学习网络是一个MLP全连接神经网络，由四层神经网络构成，包括输入层（一层）、隐藏层（二层）和输出层（一层）。具体而言，输入层有85个神经元，第一个隐藏层有544个神经元，第二个隐藏层有272个神经元，输出层有136个神经元（代表当前状态参数S下采用不同动作参数A的概率）。输入层与隐藏层、隐藏层与输出层之间使用ReLU激活函数进行激活，输出层后接Softmax激活函数。

强化学习模型选择了Q-learning算法，其Q值计算公式为：

其中，Q(s,a)表示当前状态参数s采用动作参数a的Q值，表示利用深度神经网络MLP参数w^-估计出来的下一个状态参数/>采用所有可能的动作参数/>的最大Q值，为学习率，R为当前步骤的奖励值，/>为衰减因子。在更新过程中，将当前Q值与目标Q值的差异进行更新，从而逐渐优化Q值函数，使其能够准确地估计每个状态动作对的长期累积奖励。通过不断迭代和尝试，Q-learning算法能够学习到最优的行为策略。

在深度强化学习网络模型训练阶段，需要构建模型的损失函数（Loss function）和优化器（Optimizer）。

其中，Loss函数采用均方差损失函数，其表达式为：

其中，N表示训练样本数量，系数1/2便于求梯度函数。通过最小化MSE_loss函数，深度强化学习网络模型训练的目标是使Q值的预测与真实值尽可能接近。

优化器（Optimizer）采用Adam优化器。Adam是一种常用的梯度下降优化算法，它可以自适应地调整学习率以更好地更新模型参数。在这里，学习率（learning rate）设置为0.0002，用于控制参数更新的步长。算法模型会进行多个回合的训练，直到MSE_loss值降至最低，这样可保证长期累积Q值最大化。训练完成后，保存模型（Model）以供后续电池分布数量生成使用。

图4为本申请实施例提供的得到预先训练好的深度强化学习网络模型的流程示意图，如图4所示，在图2所示流程的基础上，得到预先训练好的深度强化学习网络模型包括以下步骤：

步骤S401、根据历史强化学习参数对深度强化学习网络模型进行训练，直至满足预设条件，得到初始电池分布数量。

步骤S402、响应于初始电池分布数量与换电柜中实际电池分布数量的差值大于等于预设阈值，对初始电池分布数量进行优化处理。

根据深度强化学习网络模型训练后保存的模型（Model），利用20%的验证集数据生成序惯性轨迹策略（即电池分布数量）。为了确保该策略与真实策略更接近，可以选择进行策略提升。如果初始电池分布数量与换电柜中实际电池分布数量的差值大于等于预设阈值，则会继续进行策略提升，以寻找更优的策略；如果初始电池分布数量与换电柜中实际电池分布数量的差值小于预设阈值，则会输出当前的策略。

图5为本申请实施例提供的对初始电池分布数量进行优化处理的流程示意图，如图5所示，在图4所示流程的基础上，对初始电池分布数量进行优化处理包括以下步骤：

步骤S501、根据初始电池分布数量获取对应初始状态参数下采用动作参数的初始动作价值，并根据初始动作价值确定初始期望回报值。

步骤S502、根据初始期望回报值，通过贪心策略或确定性策略对初始电池分布数量进行优化处理。

图6为本申请实施例提供的贪心策略的流程示意图，如图6所示，在图5所示流程的基础上，步骤S502包括以下步骤：

步骤S601、在初始状态参数下，根据深度强化学习网络模型训练得到初始状态参数下采用新动作参数的第一动作价值。

利用模型（Model）输出当前的轨迹策略，并计算期望回报，即动作价值。如果在当前状态参数S下存在一个新的动作参数/>。

步骤S602、将第一动作价值所对应的期望回报值与初始期望回报值进行比较，

若，其中/>表示在当前状态参数S下采用新动作参数/>的第一动作价值，则说明采取新动作参数/>会比原来的动作参数a得到更高的期望回报，将第一动作价值所对应的电池分布数量作为最终电池分布数量。

图7为本申请实施例提供的确定性策略的流程示意图，如图7所示，在图5所示流程的基础上，步骤S502包括以下步骤：

步骤S701、在任意状态参数下，根据深度强化学习网络模型训练得到任意状态参数下采用动作参数的第二动作价值。

利用模型（Model）输出当前的轨迹策略，并计算期望回报，即动作价值。

步骤S702、将第二动作价值所对应的期望回报值与初始期望回报值进行比较，

任意一个状态参数S下，都满足，那么，可以直接贪心地在每一个状态参数下选择具有最大动作价值的动作；

其中，表示在状态参数s采取动作参数a后转移到状态参数s'的概率分布（该概率分布取自策略生成中各状态参数下动作参数的概率）。由于构造的贪心策略/>满足策略提升定理的条件，因此策略/>要么比策略π更好，要么至少与其一样好。当策略提升后得到的策略/>与之前的策略π相同时，说明策略迭代达到了收敛，此时/>和π就是最优策略。

继续参照图4，在步骤S402之后执行步骤S403，具体如下。

步骤S403、根据优化处理后的初始电池分布数量确定最终电池分布数量，得到预先训练好的深度强化学习网络模型。

继续参照图1，在步骤S102之后执行步骤S103，具体如下。

步骤S103、根据历史电池特征数据估算第二电池分布数量。

图8为本申请实施例提供的估算第二电池分布数量的流程示意图，如图8所示，在图1所示流程的基础上，步骤S103包括以下步骤：

步骤S801、采集设定周期内换电柜的历史电池特征数据，并对历史电池特征数据进行分析，得到历史电池特征数据在各个子周期内的分布参数。

步骤S802、根据分布参数估算下一个周期内换电柜的第二电池分布数量。

继续参照图1，在步骤S103之后执行步骤S104，具体如下。

步骤S104、基于第一电池分布数量和第二电池分布数量，确定目标点位的电池分布数量。

综上，本申请实施例提供的一种基于深度强化学习的电池调度方法，通过每天更新强化学习参数，包括状态参数S、动作参数A和奖励值R，利用深度强化学习网络模型训练并根据训练好的模型输出的第一电池分布数量，以及根据历史电池特征数据估算的第二电池分布数量，综合计算出目标点位的电池分布数量，实现了能够在中国各城市内进行不同类型电池的抽取和调拨，使换电柜中不同电池类型数量满足骑手的需求，节省成本的同时，也为骑手派单提供有效的保障。同时在换电领域，整个深度强化学习网络模型可以帮助企业节省人力、物力和财力，同时兼顾骑手派送外卖必需电池数量的服务体验。

需要说明的是，在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本实施例还提供了基于深度强化学习的电池调度系统，该系统用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图9为本申请实施例提供的基于深度强化学习的电池调度系统的框图，如图9所示，该系统包括：

参数获取模块901，用于基于换电柜的当前使用特征数据和当前电池特征数据确定当前强化学习参数，其中，当前强化学习参数包括当前状态参数、当前动作参数和当前奖励值。

第一电池分布获取模块902，用于采用基于换电柜的历史使用特征数据和历史电池特征数据预先训练好的深度强化学习网络模型，根据当前强化学习参数获取目标点位的第一电池分布数量。

第二电池分布获取模块903，用于根据历史电池特征数据估算第二电池分布数量。

电池分布数量获取模块904，用于基于第一电池分布数量和第二电池分布数量，确定目标点位的电池分布数量。

需要说明的是，上述各个模块可以是功能模块也可以是程序模块，既可以通过软件来实现，也可以通过硬件来实现。对于通过硬件来实现的模块而言，上述各个模块可以位于同一处理器中；或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。

本实施例还提供了基于深度强化学习的电池调度装置，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现上述任一项方法实施例中的步骤。

可选地，上述基于深度强化学习的电池调度装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

需要说明的是，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

另外，结合上述实施例中的基于深度强化学习的电池调度方法，本申请实施例可提供一种存储介质来实现。该存储介质上存储有计算机程序；该计算机程序被处理器执行时实现上述实施例中的任意基于深度强化学习的电池调度方法。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现基于深度强化学习的电池调度方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

在一个实施例中，图10为根据本申请实施例提供的电子设备的内部结构示意图，如图10所示，提供了一种电子设备，该电子设备可以是服务器，其内部结构图可以如图10所示。该电子设备包括通过内部总线连接的处理器、网络接口、内存储器和非易失性存储器，其中，该非易失性存储器存储有操作系统、计算机程序和数据库。处理器用于提供计算和控制能力，网络接口用于与外部的终端通过网络连接通信，内存储器用于为操作系统和计算机程序的运行提供环境，计算机程序被处理器执行时以实现基于深度强化学习的电池调度方法，数据库用于存储数据。

本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink）DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

本领域的技术人员应该明白，以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于深度强化学习的电池调度方法，其特征在于，包括：

基于换电柜的当前使用特征数据和当前电池特征数据确定当前强化学习参数，其中，所述当前强化学习参数包括当前状态参数、当前动作参数和当前奖励值；

其中，所述基于换电柜的当前使用特征数据和当前电池特征数据确定当前强化学习参数包括：

根据所述当前使用特征数据确定所述当前状态参数，其中，所述当前使用特征数据包括所述换电柜的使用特征数据和所述换电柜与骑手交互特征数据；和/或

依据所述当前电池特征数据对电池进行分类，根据不同类型电池的数量确定所述当前动作参数；和/或

确定所述当前使用特征数据和换电柜用户流量之间的相关性系数，基于所述相关性系数和预设权重确定所述当前奖励值；

采用基于所述换电柜的历史使用特征数据和历史电池特征数据预先训练好的深度强化学习网络模型，根据所述当前强化学习参数获取目标点位的第一电池分布数量；

其中，所述基于所述换电柜的历史使用特征数据和历史电池特征数据预先训练好的深度强化学习网络模型包括：

根据所述换电柜的历史使用特征数据确定历史强化学习参数，其中，所述历史强化学习参数包括历史状态参数、历史动作参数和历史奖励值；

构建以所述历史强化学习参数为输入，以预测每个状态参数下选择不同动作参数的概率为输出的深度强化学习网络模型；

根据所述历史强化学习参数对所述深度强化学习网络模型进行训练，直至满足预设条件，得到所述预先训练好的深度强化学习网络模型；

其中，所述得到所述预先训练好的深度强化学习网络模型包括：

根据所述历史强化学习参数对所述深度强化学习网络模型进行训练，直至满足预设条件，得到初始电池分布数量；

响应于所述初始电池分布数量与所述换电柜中实际电池分布数量的差值大于等于预设阈值，对所述初始电池分布数量进行优化处理；

根据所述优化处理后的初始电池分布数量确定最终电池分布数量，得到所述预先训练好的深度强化学习网络模型；

根据所述历史电池特征数据估算第二电池分布数量；

其中，所述根据所述历史电池特征数据估算第二电池分布数量包括：

采集设定周期内所述换电柜的历史电池特征数据，并对所述历史电池特征数据进行分析，得到所述历史电池特征数据在各个子周期内的分布参数；

根据所述分布参数估算下一个周期内所述换电柜的第二电池分布数量；

基于所述第一电池分布数量和所述第二电池分布数量，确定所述目标点位的电池分布数量。

2.根据权利要求1所述的基于深度强化学习的电池调度方法，其特征在于，所述以所述历史强化学习参数为输入包括：

对所述历史状态参数进行聚类处理，得到聚类后的历史状态参数；

根据所述聚类后的历史状态参数更新所述历史动作参数和所述历史奖励值；

将所述聚类后的历史状态参数，以及更新后的所述历史动作参数和所述历史奖励值作为所述深度强化学习网络模型的输入。

3.根据权利要求1所述的基于深度强化学习的电池调度方法，其特征在于，所述对所述初始电池分布数量进行优化处理包括：

根据所述初始电池分布数量获取对应初始状态参数下采用动作参数的初始动作价值，并根据所述初始动作价值确定初始期望回报值；

根据所述初始期望回报值，通过贪心策略或确定性策略对所述初始电池分布数量进行优化处理；

其中，所述根据所述初始期望回报值，通过贪心策略对所述初始电池分布数量进行优化处理包括：

在所述初始状态参数下，根据所述深度强化学习网络模型训练得到所述初始状态参数下采用新动作参数的第一动作价值；

将所述第一动作价值所对应的期望回报值与所述初始期望回报值进行比较，

若所述第一动作价值所对应的期望回报值大于等于所述初始期望回报值，则将所述第一动作价值所对应的电池分布数量作为所述最终电池分布数量；

所述根据所述初始期望回报值，通过确定性策略对所述初始电池分布数量进行优化处理包括：

在任意状态参数下，根据所述深度强化学习网络模型训练得到所述任意状态参数下采用动作参数的第二动作价值；

将所述第二动作价值所对应的期望回报值与所述初始期望回报值进行比较，

若所述第二动作价值所对应的期望回报值均大于等于所述初始期望回报值，则将所述第二动作价值所对应的电池分布数量作为所述最终电池分布数量。

4.一种用于实现权利要求1-3任一项所述的基于深度强化学习的电池调度方法的系统，其特征在于，包括：

参数获取模块，用于基于换电柜的当前使用特征数据和当前电池特征数据确定当前强化学习参数，其中，所述当前强化学习参数包括当前状态参数、当前动作参数和当前奖励值；

第一电池分布获取模块，用于采用基于所述换电柜的历史使用特征数据和历史电池特征数据预先训练好的深度强化学习网络模型，根据所述当前强化学习参数获取目标点位的第一电池分布数量；

第二电池分布获取模块，用于根据所述历史电池特征数据估算第二电池分布数量；

电池分布数量获取模块，用于基于所述第一电池分布数量和所述第二电池分布数量，确定所述目标点位的电池分布数量。

5.一种基于深度强化学习的电池调度装置，其特征在于，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现权利要求1-3中任一项所述的基于深度强化学习的电池调度方法。

6.一种计算机可读存储介质，其特征在于，其上存储有程序，该程序被处理器执行时，实现权利要求1-3中任一项所述的基于深度强化学习的电池调度方法。