CN116362418B

CN116362418B - 一种高端电池智能工厂应用级制造能力在线预测方法

Info

Publication number: CN116362418B
Application number: CN202310611256.5A
Authority: CN
Inventors: 施璐; 宋文龙; 高伟伟; 刘红杰; 丁少华; 李丹; 罗秋月; 田庆山; 谈志农; 余顺伟; 谭勇文
Original assignee: Tianneng Battery Group Co Ltd
Current assignee: Tianneng Battery Group Co Ltd
Priority date: 2023-05-29
Filing date: 2023-05-29
Publication date: 2023-08-22
Anticipated expiration: 2043-05-29
Also published as: CN116362418A

Abstract

本发明公开了一种高端电池智能工厂应用级制造能力在线预测方法，属于动力电池制造预测领域。所述方法在进行高端电池制造能力数据预测时，首先定义了组合预测形式，其次优化预测模型组合权重，以强化学习为基础的最优权重学习环境代替传统的权重确定方法，摆脱预测模型权重问题对于预测精度的影响，可以确定不同模型下的最优权重从而保障预测精度，实现了高端电池制造能力数据在线预测，与利用传统方法确定组合权重的组合模型相比进一步提高了预测精度以及可靠性。

Description

一种高端电池智能工厂应用级制造能力在线预测方法

技术领域

本发明涉及一种高端电池智能工厂应用级制造能力在线预测方法，属于高端电池制造数据预测领域。

背景技术

动力电池是确保新能源汽车安全稳定运行的核心部件，属于高端电池。近年来针对动力电池制造技术研究也得到广泛关注。锂离子动力电池以其高能量密度、高工作电压、长循环寿命、适应高低温环境、低自放电率和轻量化等优点，在电动汽车中得到了广泛应用，具有广阔的发展前景。

随着动力电池的广泛使用，对于电池生产企业的生产能力也提出了更高的要求，进一步提高动力电池制造收益也成为了各大电池厂商智能化转型的主要目标。电池的制造工艺流程是高度复杂的系统，涉及到的工艺环节繁杂，工艺环节众多且受温度、压力、人为等因素干扰存在较多不确定性，因此准确预测智能工厂的制造能力，是保障订单按时交付，衡量企业能力，安排调度产线的重要依据。准确的制造能力预测结果也可以帮助企业更好地完成判断，优化高端电池产线并提高制造能力，因此研究电池制造能力预测方法，对于高端电池生产企业具有现实意义。

随着工业互联网的快速发展，高端电池工厂的海量数据能够得以准确采集，庞大的数据量以及复杂的数据关系也为后续高端电池制造数据预测打下基础。目前常用的预测模型都是根据历史真值确定后的固定模型，不能实时依据实时测量值进行预测更新，预测精度难以保障，为了进一步提高预测精度，研究人员选择使用组合模型实现优化，而组合模型中的权重问题则是保障预测结果精度的重要指标。但目前采用组合模型进预测的方法中，均是利用历史数据确定最优权重，后续对任何时刻的制作能力进行预测时均采用该最优权重，而工厂的当前制造能力通常是与时间上与当前时刻最接近的历史数据相关性最高，因此针对不同时刻的预测，必定是利用最新的历史数据确定的最优权重得到的预测结果最精准，但实际应用中对于制造能力的在线预测不可能每次都利用当前最新的历史数据进行确定最优权重，因此本申请提出一种针对利用历史数据确定最优权重得到的预测值，再结合当前最新的历史数据进行二次修正的方法，从而实现更精准的高端电池制造能力数据预测效果。

发明内容

为了进一步提高电池制造能力在线预测的精度，本发明提供了一种高端电池智能工厂应用级制造能力在线预测方法，

步骤一：定义电池制造能力和组合预测模型的形式，所述组合预测模型中利用权重对不同预测模型的预测值进行切分，所述组合预测模型由循环神经网络模型、长短时记忆网络模型和强化学习模型组成；

步骤二：初始化循环神经网络模型、长短时记忆网络模型、强化学习模型参数，并确定循环神经网络RNN模型和长短时记忆网络LSTM模型的权重初始值w ₁=w ₂= 0.5，也即初始预测值以循环神经网络RNN模型和长短时记忆网络LSTM模型各自的预测值进行加权得到，以强化学习模型的权重w ₃作为在线预测权重，初始化w ₃ =0.1；设定动力电池制造能力组合预测模型的状态矩阵、和动作矩阵A ₁、A ₂；

通过后续步骤对循环神经网络RNN模型、长短时记忆网络LSTM模型和强化学习模型的权重w ₁、w ₂和w ₃进行寻优确定最佳权重；

步骤三：利用动力电池制造能力历史数据训练所述RNN模型和LSTM模型，利用训练好的RNN模型和LSTM模型分别获得RNN模型输出和LSTM模型输出，其中，N表示预测结果向量长度；

步骤四：建立以目标状态为行、动作状态为列的组合预测模型Q ₁表和Q ₂表，并设置损失函数L ₁和奖惩函数R ₁，进行动作选择，设置动作选择机制A ₁；

步骤五：根据RNN模型输出和LSTM模型输出计算损失函数L ₁以及奖惩函数R ₁，更新Q ₁表；

步骤六：利用动力电池制造能力历史数据分别迭代更新RNN模型和LSTM模型至设定的次数N ₁和N ₂时，输出状态矩阵、即RNN模型最佳组合权重w ₁和LSTM模型最佳组合权重w ₂；

步骤七：代入变量w ₁和w ₂，重新计算得到新的组合预测结果，随后建立损失函数L ₂与奖惩函数R ₂，根据当前状态以及Q ₂表，进行动作选择，设置动作选择机制A ₂；

步骤八：计算损失函数L ₂与奖惩函数R ₂，更新Q ₂表；

步骤九：利用动力电池制造能力的实时数据迭代更新组合预测模型至设定的次数N ₃时，输出状态矩阵，即动力电池制造能力组合在线预测最优权重w ₃；

步骤十：根据步骤九的输出结果，构造组合在线预测模型，输出动力电池制造能力的在线预测值；

上述寻优过程，首先确定RNN模型最佳组合权重w ₁和LSTM模型最佳组合权重w ₂，再确定强化学习模型的权重w ₃，以各模型对应的权重对所得到的预测值进行合理切分组合得到最终预测值，该方法考虑单一预测模型分别在短期和中长期预测有所互补，因此采取更合理的切分方式可以有效提升预测精度。

可选的，所述步骤一中电池制造能力采用单位时间内所制造得到的生产量CT表示：

(1)

式中，表示工厂制造时间，表示工厂制造工件数；

根据实际生产过程的需求，电池制造能力也可以采用其他生产标准制定，比如一个生产周期制造得到的生产量。

所述组合预测模型的形式为：

(2)

(3)

式中，是第i种预测模型的权重，是第i种预测模型的分界点，表示第i种预测方法的第j个预测向量值，表示对数值a向下取整，m表示单一预测模型的个数；通过权重与预测结果向量长度的积并向下取整来确定预测模型间的分界点，实现对于不同预测模型的预测值进行合理切分组合；

本申请中，i取值1-3，也即采用三种单一模型进行组合得到组合预测模型。

可选的，所述步骤二中动力电池制造能力组合预测模型的状态矩阵、和动作矩阵A ₁、A ₂分别为：

(5)

(6)

(7)

(8)

其中，w ₁为RNN模型的权重，w ₂为LSTM模型的权重，w ₃为动力电池制造能力组合在线预测权重，表示的动作大小，表示的动作大小。

可选的，所述步骤四中损失函数L ₁与奖惩函数R ₁如下：

(11)

(12)

其中，分别表示t时刻循环神经网络模型与长短时记忆网络模型电池制造能力真实值，表示t时刻循环神经网络模型，为循环神经网络模型在t时刻的损失值，为循环神经网络模型在t+1时刻损失值，N为输出样本长度，即预测结果向量长度。

可选的，所述步骤四中动作选择机制A ₁为：

(13)

其中，表示Q ₁表中最大Q值所对应的动作，表示在动作矩阵A ₁中随机选择一个动作，为处于之间的随机数，为动作A ₁的贪心率。

可选的，所述步骤五中Q ₁表公式为：

(14)

其中，表示分别采用t时刻的和A ₁作为行和列构建的表，为Q ₁表的更新学习率，为Q ₁表的折扣因子。

可选的，所述步骤七中损失函数L ₂与奖惩函数R ₂如下：

(15)

(16)

其中，表示t时刻长短时记忆网络模型电池制造能力真实值，表示t时刻长短时记忆网络模型电池制造能力预测值，为长短时记忆网络模型在t时刻的损失值，为长短时记忆网络模型在t+1时刻损失值，N为输出样本长度。

可选的，所述步骤七中动作选择机制A ₂为：

(17)

其中，表示Q ₂表中最大Q值所对应的动作，表示在动作矩阵A ₂中随机选择一个动作，为处于之间的随机数，为动作A ₂的贪心率。

可选的，所述步骤七中Q ₂表更新公式如下：

(18)

其中，表示分别采用t时刻的和A ₂作为行和列构建的表，为Q ₂表的更新学习率，为Q ₂表的折扣因子。

可选的，所述步骤十包括：

根据RNN模型最佳组合权重w ₁、LSTM模型最佳组合权重w ₂和在线预测最优权重w ₃对动力电池制造能力进行在线二次在线修正，修正过程如下：

(19)

(20)

(21)

(22)

(23)

其中，表示计算步数，为一次指数滑动预测平均值，为二次指数滑动预测平均值，w ₃为进步权重，为当前时刻后下一时刻的预测值；

最后，根据式(2)和式(3)所提出的电池制造能力组合预测形式，确定基于强化学习的动力电池制造能力组合预测模型，输出电池制造能力的预测值；

该方法在最优权重组合预测模型基础上，利用强化学习获取二次指数滑动平均预测权重，增加了一般组合预测模型的在线环节，对于实时到达的数据有着更高的利用率和可靠性。

本发明有益效果是：

考虑到一般组合预测模型为离线模型，结合智能工厂的实时数据采集，引入了一种预测结果在线更新方式，利用权重优化预测模型，并利用在线测量结果对当前预测值进行修正，进一步提高组合预测精度，避免反复训练离线预测模型。根据实际生产动力电池制造能力预测数据为例，验证了所提的在线组合预测算法的有效性和可行性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例中公开的一种高端电池智能工厂应用级制造能力在线预测方法的流程图。

图2是本发明一个实施例中公开的采用本申请方法及现有四种方法对动力电池制造能力在线预测结果图。

图3是本发明一个实施例中公开的采用本申请方法及现有四种方法对动力电池制造能力在线预测误差结果图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

实施例一：

本实施例提供一种高端电池智能工厂应用级制造能力在线预测方法，参见图1，所述方法包括：

步骤二：初始化循环神经网络模型、长短时记忆网络模型、强化学习模型参数，并确定循环神经网络RNN模型和长短时记忆网络LSTM模型的权重初始值w ₁=w ₂= 0.5，以强化学习模型的权重w ₃作为在线预测权重，初始化w ₃ =0.1；设定动力电池制造能力组合预测模型的状态矩阵、和动作矩阵A ₁、A ₂；

步骤八：计算损失函数L ₂与奖惩函数R ₂，更新Q ₂表；

步骤十：根据步骤九的输出结果，构造组合在线预测模型，输出动力电池制造能力的在线预测值。

实施例二

步骤一：定义电池制造能力和新的组合预测模型形式如下：

本申请方案的预测目标是电池制造能力，采用单位时间内所制造得到的生产量(Cycle Time，CT)作为制造能力评价指标：

(1)

式中，表示工厂制造时间，表示工厂制造工件数。

若设定的电池制造能力预测组合模型共有m种单一预测模型，预测结果向量长度N，那么本申请方法的组合预测形式表示为：

(2)

(3)

式中，是第i种预测方法的权重，是第i种预测方法的分界点，表示第i种预测方法的第j个预测向量值，表示对数值a向下取整. 通过权重与预测结果向量长度的积并向下取整来确定预测方法间的分界点，从而得到一种新的组合预测形式表示，这样可以对于不同预测方法的预测值进行合理切分组合。

组合预测权重满足以下约束：

(4)

注：若出现权重，说明得到的组合模型与其中的某个单一模型相同；若出现权重，则需要重新考虑第i个单一模型的合理性。

步骤二：初始化循环神经网络模型、长短时记忆网络模型、强化学习模型参数。

定义k ₁= 1、k ₂= 1、k ₃= 1，令在线预测初值，组合权重初始值w ₁=w ₂= 0.5，在线预测权重w ₃ =0.1，强化学习迭代步长N ₁、N ₂、N ₃，初始化Q ₁、Q ₂表全为0，给定参数、、、，建立目标状态矩阵、，动作矩阵A ₁、A ₂；

循环神经网络模型参数定义如表1所示、长短时记忆网络模型参数定义如表2所示、强化学习模型参数定义如表3所示。

表1：RNN模型参数

表2：LSTM模型参数

表3：强化学习模型参数

利用强化学习构建组合预测模型最优权重学习环境，设定动力电池制造能力组合预测模型的状态矩阵、和动作矩阵A ₁、A ₂分别如下：

(5)

(6)

(7)

(8)

步骤三：代入最优隐含层节点数计算模型，循环神经网络模型t时刻输出为：

(9)

其中，x _t是t时刻系统的输入，s _t和o _t是t时刻隐含层和输出层的输出，U是隐含层权重，V是输出层的权重，W表示隐含层上一次的值作为这一次输入的权重。g和f是激活函数。

长短时记忆网络模型t时刻输出为

(10)

其中，表示t时刻短期历史信息，表示t时刻长期历史信息，为t时刻候选长期历史信息，x _t表示t时刻输入样本，σ为Sigmoid激活函数，tanh为双曲正切激活函数，W _f和b _f分别为遗忘门的权重矩阵和偏置向量，W _i和b _i分别为输入门的权重矩阵和偏置向量，W _o和b _o分别为输出门的权重矩阵和偏置向量。

代入循环神经网络最优隐含层初值l _1，0和长短时记忆网络最优隐含层初值l _2，0计算得到一次预测结果y _1，N和y _2，N。

步骤四：建立以目标状态为行、动作状态为列的组合预测模型Q ₁表，并设置损失函数L ₁与奖惩函数R ₁如下：

(11)

(12)

其中，分别表示t时刻循环神经网络模型与长短时记忆网络模型电池制造能力真实值，表示t时刻循环神经网络模型，为循环神经网络模型在t时刻的损失值，为循环神经网络模型在t+1时刻损失值，N为输出样本长度。

进行动作选择，设置动作选择机制A ₁为：

(13)

步骤五：根据步骤四的一次预测结果以及式(9)~ (10)计算损失函数L ₁，奖惩函数R ₁，更新Q ₁表。

更新Q ₁表公式如下：

(14)

其中，表示分别采用t时刻的和A ₁作为行和列构建的表，为Q ₁表的更新学习率，为Q ₁表的折扣因子。最后，输出状态矩阵作为两个预测模型最优组合权重矩阵。

步骤六：令k ₁=k ₁+1，返回步骤四，针对RNN模型，迭代直到k ₁=N ₁，针对LSTM模型迭代直到k ₂=N ₂时输出状态矩阵、RNN模型最佳组合权重w ₁和LSTM模型最佳组合权重w ₂，输出两个组合权重后跳转到步骤七。

步骤七：代入变量w ₁和w ₂，重新计算得到新的组合预测结果，随后建立损失函数L ₂与奖惩函数R ₂如下：

(15)

(16)

其中，表示t时刻长短时记忆网络模型电池制造能力真实值，表示t时刻长短时记忆网络模型电池制造能力预测值，为长短时记忆网络模型在t时刻的损失值，为长短时记忆网络模型在t+1时刻损失值，N为输出样本长度。根据当前状态以及Q ₂表，进行动作选择，选择机制A ₂为：

(17)

步骤八：根据步骤七的式(16)和(17)计算损失函数L ₂和奖惩函数R ₂，更新Q ₂表。

更新Q ₂表公式如下

(18)

其中，表示分别采用t时刻的和A ₂作为行和列构建的表，为Q ₂表的更新学习率，为Q ₂表的折扣因子。最后，输出状态矩阵作为动力电池制造能力组合在线预测模型最优权重矩阵。

步骤九：令k ₃=k ₃+1，返回步骤七，直到k ₃=N ₃输出状态矩阵，即动力电池制造能力组合在线预测最优权重w ₃，跳转到步骤十。

步骤十：根据步骤九的输出结果，构造基于强化学习的动力电池制造能力组合预测模型，输出电池制造能力的预测值。

在动力电池制造能力组合在线预测最优权重w ₃之后，进行在线二次在线修正，修正过程如下：

(19)

(20)

(21)

(22)

(23)

其中，表示计算步数，为一次指数滑动预测平均值，为二次指数滑动预测平均值，w ₃为进步权重，为当前时刻后下一时刻的预测值。

最后，根据式(2)和式(3)所提出的电池制造能力组合预测形式，构造出基于强化学习的动力电池制造能力组合预测模型，输出电池制造能力的预测值。

为评估本申请方法(Reinforcement Learning Online based Recurrent NeuralNetwork and Long Short-Term Memory，RLO-RNN-LSTM)的估计性能，本实施例中通过与四种现有方法的估计结果作对比，以判断该方法的优劣；四种现有方法分别为采用循环神经网络方法（后续简称为RNN方法），用长短时记忆网络方法（后续简称为LSTM方法），用普通线性组合模型方法（后续简称为C-RNN-LSTM方法）以及强化学习组合模型方法（后续简称为RL-RNN-LSTM方法）。

其中，RNN方法可参考“刘颖, 杨鹏飞, 张立军, 等. 前馈神经网络和循环神经网络的鲁棒性验证综述[J]. 软件学报, 2023, 34(7): 1–33.”中的介绍；LSTM方法可参考“程冬梅. LSTM研究现状综述[J]. 信息系统工程, 2022, 337(1): 149-152.”中的介绍；C-RNN-LSTM方法和RL-RNN-LSTM方法可参考“CN114418234A一种基于强化学习的动力电池制造能力在线预测方法”中的介绍。

不同预测方法下的电池制造能力预测误差对比如下表4：

表4：不同预测方法下的电池制造能力预测误差对比

为验证本申请所提出的一种电池制造能力在线预测方法的精确性和有效性，采用本申请方法和现有RNN、LSTM、C-RNN-LSTM以及RL-RNN-LSTM方法进行如下仿真实验，对于在实际生产工艺情况，图2、图3分别展示了各方法制造能力变化情况以及误差情况。

由图2可以看出，圈线表示电池制造能力真实值，菱形虚线表示RNN方法预测结果，五角星虚线表示LSTM方法预测结果，点实线表示本申请所提的RL-RNN-LSTM方法，矩形线表示RRL-RNN-LSTM方法，×线表示RL-R-LSTM方法，这些方法均能够大致预测制造能力的总体变化趋势。

由图2和图3可以看出，普通形式组合预测模型与本申请组合模型的主要区别在于其组合的形式为线性加权计算所得，但是本申请所采用的组合形式是对于预测序列进行合理切分，组合模型所采用的单一预测模型分别在短期和中长期预测有所互补，因此采取更合理的切分方式可以有效提升预测精度。本章所提出的RLO-RNN-LSTM组合在线预测模型则是在最优权重组合预测模型基础上，利用强化学习获取二次指数滑动平均预测权重，增加了一般组合预测模型的在线环节，对于实时到达的数据有着更高的利用率和可靠性。

表 4 给出了各项预测模型的电池制造能力预测误差对比情况，从中可以看出在单一模型中整体来看LSTM模型比RNN模型预测效果要更好一点，但就MAD与RMSE误差指标而言，LSTM模型的预测误差还是不如RL-RNN-LSTM组合模型，这也体现了在组合模型中求解最优权重的重要性。

在组合模型之间，一般形式组合预测模型C-RNN-LSTM效果最差，这说明一个合理的组合形式对于组合模型的预测也是至关重要的。在针对四种误差指标的对比中，RLRNN-LSTM组合模型的动力电池制造能力与C-RNN-LSTM模型相比分别提高了48.2%，30%，22.8%，24.3%，本章提出的RLO-RNN-LSTM模型的电池制造能力预测又较于RL-RNN-LSTM组合模型分别降低了6.7%，6.1%，提高了6.27%，4.67%，可见在线训练是利用部分平均误差和平均绝对误差为代价，换取后续两个误差指标的提升，还无法做到各项误差评价指标均有所提升，其主要原理是利用实施到达的数据加以二次更新，从而修正一定的预测趋势用以减小预测波动，使得预测数据更加平滑。综上所述，在电池制造过程中，利用本申请所提出的RLO-RNN-LSTM组合在线预测模型可以在RL-RNN-LSTM组合模型预测效果上进一步提高预测精度。

本发明实施例中的部分步骤，可以利用软件实现，相应的软件程序可以存储在可读取的存储介质中，如光盘或硬盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种高端电池智能工厂应用级制造能力在线预测方法，其特征在于，所述方法包括：

步骤二：初始化循环神经网络模型、长短时记忆网络模型、强化学习模型参数，并确定循环神经网络RNN模型和长短时记忆网络LSTM模型的权重初始值w ₁= w ₂= 0.5，以强化学习模型的权重w ₃作为在线预测权重，初始化w ₃ = 0.1；设定动力电池制造能力组合预测模型的状态矩阵、和动作矩阵A ₁、A ₂；

步骤八：计算损失函数L ₂与奖惩函数R ₂，更新Q ₂表；

所述步骤一中电池制造能力采用单位时间内所制造得到的生产量CT表示：

(1)

式中，表示工厂制造时间，表示工厂制造工件数；

所述组合预测模型的形式为：

(2)

(3)

式中，是第i种预测模型的权重，是第i 种预测模型的分界点，表示第i种预测方法的第j个预测向量值，表示对数值a向下取整，m表示单一预测模型的个数；通过权重与预测结果向量长度的积并向下取整来确定预测模型间的分界点，实现对于不同预测模型的预测值进行合理切分组合；

所述步骤二中动力电池制造能力组合预测模型的状态矩阵、和动作矩阵A ₁、A ₂分别为：

(5)

(6)

(7)

(8)

其中，w ₁为RNN模型的权重，w ₂为LSTM模型的权重，w ₃为动力电池制造能力组合在线预测权重，表示的动作大小，表示的动作大小；

所述步骤四中损失函数L ₁与奖惩函数R ₁如下：

(11)

(12)

其中，表示t时刻循环神经网络模型电池制造能力真实值，表示t时刻循环神经网络模型电池制造能力预测值，为循环神经网络模型在t时刻的损失值，为循环神经网络模型在t+1时刻损失值，N为输出样本长度，即预测结果向量长度；

所述步骤四中动作选择机制A ₁为：

(13)

其中，表示Q ₁表中最大Q值所对应的动作，表示在动作矩阵A ₁中随机选择一个动作，为处于之间的随机数，为动作A ₁的贪心率；

所述步骤五中Q ₁表公式为：

(14)

其中，表示分别采用t时刻的和A ₁作为行和列构建的表，为Q ₁表的更新学习率，为Q ₁表的折扣因子；

所述步骤七中损失函数L ₂与奖惩函数R ₂如下：

(15)

(16)

其中，表示t时刻长短时记忆网络模型电池制造能力真实值，表示t时刻长短时记忆网络模型电池制造能力预测值，为长短时记忆网络模型在t时刻的损失值，为长短时记忆网络模型在t+1时刻损失值，N为输出样本长度；

所述步骤七中动作选择机制A ₂为：

(17)

其中，表示Q ₂表中最大Q值所对应的动作，表示在动作矩阵A ₂中随机选择一个动作，为处于之间的随机数，为动作A ₂的贪心率；

所述步骤七中Q ₂表更新公式如下：

(18)

其中，表示分别采用t时刻的和A ₂作为行和列构建的表，为Q ₂表的更新学习率，为Q ₂表的折扣因子；

所述步骤十包括：

根据在线预测强化学习模型的权重w ₃最优值对动力电池制造能力进行在线二次在线修正，修正过程如下：

(19)

(20)

(21)

(22)

(23)

其中，表示计算步数，为一次指数滑动预测平均值，为二次指数滑动预测平均值，为当前时刻后下一时刻的预测值；

最后，根据式(2)和式(3)所提出的电池制造能力组合预测形式，确定基于强化学习的动力电池制造能力组合预测模型，输出电池制造能力的预测值。