CN112257348A

CN112257348A - 一种锂电池长期退化趋势预测方法

Info

Publication number: CN112257348A
Application number: CN202011525324.9A
Authority: CN
Inventors: 丁宇; 王超; 马剑; 吕琛
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2020-12-22
Filing date: 2020-12-22
Publication date: 2021-01-22
Anticipated expiration: 2040-12-22
Also published as: CN112257348B

Abstract

本发明公开了一种锂电池长期退化趋势预测方法，包括：通过将用于锂电池部分退化趋势曲线作为原始数据进行归一化和平滑处理，得到用于输入给训练好的预测模型的锂电池待预测样本；预测模型收到锂电池待预测样本时，给出锂电池待预测样本的起始状态对应的预测动作，预测模型所使用的交互环境将所述起始状态对应的预测动作拼接到锂电池待预测样本起始状态的结尾，作为第一次预测趋势曲线；将第一次预测趋势曲线结果截取等于单次状态长度的序列作为下一时刻状态输入给所述预测模型，使预测模型给出下一时刻状态对应的预测动作，交互环境将下一时刻状态对应的预测动作拼接到下一时刻状态的结尾，作为第二次预测趋势曲线，直至得到最终预测趋势曲线。

Description

一种锂电池长期退化趋势预测方法

技术领域

本发明涉及电池退化趋势预测技术，特别是一种锂电池长期退化趋势预测方法。

背景技术

故障预测技术不仅能在设备的实际使用过程中为设备的维修、更换等维护工作提供决策依据，在设备的性能试验阶段也能够为产品的设计过程提供辅助决策信息。例如对于锂电池研发企业来说，加快提升产品性能的过程能够更多更快地占领市场份额。同时，为了摸清新配方锂离子电池的性能特性需要通过大量的性能测试试验来测试与度量，而相关试验过程往往需要耗费大量的时间和成本。因此，利用退化趋势/剩余寿命预测技术预测锂离子电池在标准条件下的循环寿命能够极大地压缩试验时间。

深度强化学习任务通常可以用马尔科夫决策过程（Markov Decision Process,MDP）来描述，且学习任务往往伴随着大量的状态转移过程。深度强化学习任务在学习过程中，其目标是学习到一套最优策略，既在状态不断变化的环境中，如何选择最优的动作集合。为了达到这样的目标，深度强化学习任务在学习策略过程中，不仅需要考虑每个动作的短时反馈奖励值，同时需要考虑长期执行这一策略后得到的累计奖励能够最大。联系到退化趋势预测问题，其要求也是需要保证在长期预测过程中的稳定性和准确性。为了实现这样的要求，需要预测方法和模型在保证每一步预测准确性的基础上，实现长期预测的稳定性和准确性。

发明内容

本发明目的是提供一种锂电池长期退化趋势预测方法，利用深度强化学习中的深度确信策略梯度方法（Deep Deterministic Policy Gradient，DDPG），将长时剩余寿命预测问题转化为连续动作空间条件下的寿命退化轨迹预测问题，以便实现准确而稳定的锂电池长时剩余寿命预测。

本发明所提供的锂电池长期退化趋势预测方法包括：

通过将用于锂电池部分退化趋势曲线作为原始数据进行归一化和平滑处理，得到用于输入给训练好的预测模型的锂电池待预测样本；

所述预测模型收到锂电池待预测样本时，给出锂电池待预测样本的起始状态对应的预测动作，预测模型所使用的交互环境将所述起始状态对应的预测动作拼接到锂电池待预测样本起始状态的结尾，作为第一次预测趋势曲线；

所述交互环境将第一次预测趋势曲线结果截取等于单次状态长度的序列作为下一时刻状态输入给所述预测模型，使所述预测模型给出下一时刻状态对应的预测动作，交互环境将下一时刻状态对应的预测动作拼接到所述下一时刻状态的结尾，作为第二次预测趋势曲线；

所述交互环境和预测模型按照对所述第一次预测趋势曲线进行处理的相同方式，对第二次预测趋势曲线进行同样的处理，得到第三次预测趋势曲线，并对第三次预测趋势曲线进行同样的处理，直至得到最终预测趋势曲线（若预定处理次数为N次，则经过N次相同处理后，得到最终预测趋势曲线）。

优选地，本发明的锂电池长期退化趋势预测方法包括对最终预测结果进行平滑处理，以便清楚地显示退化趋势预测结果。

优选地，所述预测模型是由DDPG算法构成的预测模型；通过利用已知的锂电池训练集样本对所述预测模型进行训练，得到所述训练好的预测模型。

优选地，输入到预测模型的状态是一个固定长度的序列，所述预测模型给出的预测动作是一个比所述状态的长度短的固定长度的序列。

优选地，通过利用已知的训练集样本对所述预测模型进行训练，得到所述训练好的预测模型包括以下迭代处理：

交互环境从一条锂电池退化趋势曲线的最左端开始，截取长度为N的数据作为当前状态输入到所述预测模型；

所述预测模型根据所输入的状态给出预测动作；

交互环境将预测动作拼接到所输入的状态的结尾，形成下一锂电池预测趋势曲线；

交互环境根据预测模型给出的预测动作计算当前的奖励值，并给出下一时刻的状态；

利用所述当前状态、预测动作、奖励值以及下一时刻状态在内的元素对预测模型的参数进行优化。

优选地，利用所述当前状态、预测动作、奖励值以及下一时刻状态在内的元素对预测模型的参数进行优化包括：

保存所述当前状态、预测动作、奖励值以及下一时刻状态；

利用所保存的奖励值计算预测模型中评委网络的损失，并使用Adam算法对评委网络的参数进行更新；

将所述评委网络的输出作为演员网络的学习目标，并使用Adam算法对所述演员网络的参数进行优化。

优选地，将所述迭代处理的当前状态、预测动作、奖励值以及下一时刻状态保存到一个预设的记忆库中，直至所述记忆库被充满。

优选地，从所述记忆库随机抽取历史记忆形成mini-batch，更新DDPG算法参数。

优选地，所述参数包括深度神经网络的超参数和DDPG的核心参数。

优选地，通过利用已知的训练集样本对所述预测模型进行训练，得到所述训练好的预测模型还包括：利用已知的锂电池测试集样本对训练好的预测模型进行测试，以便确定训练好的预测模型是否达到预期。

本发明以锂电池企业设计生产以及试验过程中的锂电池试验数据为基础，对基于深度确信梯度策略预测方法的有效性进行了测试。实验结果标明本文提出的方法能够有效的实现锂离子电池退化趋势/剩余寿命预测。

本发明上述技术方案的有益效果包括：

1、提出了一种深度强化学习的锂电池性能退化趋势预测方法，不同于现有基于监督学习架构的退化趋势预测方法，所提出方法能够打破时序型训练数据中所存在的相关性，提升深层神经网络的训练效果；

2、提出了一种退化趋势预测仿真沙盒构建方法，能够为基于深度强化学习方法构建的预测模型提供交互式探索环境，使得深度强化学习算法能够用于退化趋势预测问题；

3、所提出方法能够同时对不同配方电池的退化特性进行学习建模，在此基础上，仅以部分退化趋势曲线作为输入，能够外推式的对剩余退化趋势进行有效预测。在电池生产商实际配方设计阶段循环寿命试验过程中，利用本方法能够通过预测的方式，有效地节省试验量。

附图说明

图1是本发明的一种锂电池长期退化趋势预测方法的示意图；

图2a是本发明的预测模型训练的原理流程图；

图2b是本发明的测试训练好的预测模型的原理流程图；

图3是本发明的预测模型训练及利用训练好的预测模型预测锂电池长期退化趋势的具体流程图；

图4是不同温度下的归一化充放电循环寿命数据，图中（a）（b）（c）分别为25℃、45℃和60℃下7种配方的退化趋势曲线。

具体实施方式

图1显示了本发明的一种锂电池长期退化趋势预测方法，包括：

通过将用于锂电池部分退化趋势曲线作为原始数据进行归一化和平滑处理，得到用于输入给训练好的预测模型的锂电池待预测样本；预测模型收到锂电池待预测样本时，给出锂电池待预测样本的起始状态对应的预测动作，预测模型所使用的交互环境将所述起始状态对应的预测动作拼接到锂电池待预测样本起始状态的结尾，作为第一次预测趋势曲线；交互环境将第一次预测趋势曲线结果截取等于单次状态长度的序列作为下一时刻状态输入给所述预测模型，使所述预测模型给出下一时刻状态对应的预测动作，交互环境将下一时刻状态对应的预测动作拼接到所述下一时刻状态的结尾，作为第二次预测趋势曲线；交互环境和预测模型按照对所述第一次预测趋势曲线进行处理的相同方式，对第二次预测趋势曲线进行同样的处理，得到第三次预测趋势曲线，然后对第三次预测趋势曲线进行同样的处理，直至得到最终预测趋势曲线（若预定处理次数为N次，则经过N次相同处理后，得到最终预测趋势曲线）。

本发明的预测模型是由DDPG算法构成的软件。本发明的交互环境是供预测模型使用的软件。

本发明的锂电池长期退化趋势预测方法还包括对最终预测结果进行平滑处理，以便清楚地显示退化趋势预测结果。

本发明通过利用已知的锂电池训练集样本对所述预测模型进行训练，得到训练好的预测模型。

在本发明的锂电池长期退化趋势预测方法中，输入到预测模型的状态是一个固定长度的序列，预测模型给出的预测动作也是一个比所述状态的长度短的固定长度的序列。

在本发明的锂电池长期退化趋势预测方法中，通过利用已知的训练集样本对所述预测模型进行训练，得到所述训练好的预测模型包括以下迭代处理：

所述预测模型根据所输入的状态给出预测动作；

在本发明的锂电池长期退化趋势预测方法中，利用所述当前状态、预测动作、奖励值以及下一时刻状态在内的元素对预测模型的参数进行优化包括：

保存所述当前状态、预测动作、奖励值以及下一时刻状态；

在本发明的锂电池长期退化趋势预测方法中，将所述迭代处理的当前状态、预测动作、奖励值以及下一时刻状态保存到一个预设的记忆库中，直至所述记忆库被充满。并且，从所述记忆库随机抽取历史记忆形成mini-batch，更新DDPG算法参数。

在本发明的锂电池长期退化趋势预测方法中，评委网络参数和演员网络参数包括深度神经网络的超参数和DDPG的核心参数。

在本发明的锂电池长期退化趋势预测方法中，通过利用已知的训练集样本对所述预测模型进行训练，得到所述训练好的预测模型还包括：利用已知的锂电池测试集样本对训练好的预测模型进行测试，以便确定训练好的预测模型是否达到预期。

下面通过具体实例，对本发明的上述内容进行具体说明。

步骤一：锂电池退化趋势预处理

在长时性能退化趋势预测过程中，数据预处理能在很大程度上决定算法学习的最终效果。在本发明中，性能退化趋势数据的预处理过程包含归一化以及数据平滑两个步骤。其中归一化为对X轴数据的归一化，X轴数据的归一化尺度决定于当前训练样本集中的最长剩余寿命值。归一化方法为将原始数据线性归一到0到1之前。在对数据集进行整体归一化的前提下，利用局部加权回归方法实现对数据的平滑处理，尽可能地去除原始数据中的噪声。在此基础上，对数据进行坐标系转换，将曲线由直角坐标系转换到极坐标系。下面对本发明中所采用的局部加权平均方法进行介绍。

针对锂电池退化趋势数据，为了去除原始数据中所存在的短时随机扰动，为了尽可能在保留时间序列数据趋势性信息的基础上消除数据的随机波动性，本发明采用局部加权回归方法对原始退化趋势数据进行预处理。考虑到在趋势性的时间序列数据中，直接采用线性回归类的方法往往容易将数据结构中存在的趋势性信息剔除，因此不能通过简单的线性回归方法对原始数据进行预处理。局部加权回归方法能较好的解决平滑问题。该方法为非参数学习方法，即随着自变量的改变，相应的回归模型中的参数也会随之变化。随着待平滑数据的变化，将会导致模型参数随着待平滑数据进行变化。在线性拟合方法中，最常用的方法是利用最小二乘法缩小待平滑值与平滑结果之间的距离。线性拟合方法的损失函数定义为

其中，

为待优化的参数，

为待平滑的数据，

为平滑的目标值。因此线性拟合的目标即为找到合适的参数

使得上述损失函数最小。在局部加权回归方法中，损失函数定义为

其中

的表达式为

其中

为当前待平滑输出的时间标签，参数

控制权值变化的速率。

决定了离待平滑点越近的点其值越大，离的越远其值也就越小。该方法在平滑过程中相比直接使用线性拟合方法进行平滑有如下优点：（1）与需要平滑的数据有关的因素只有平滑结果到待平滑数据之间的距离，随着距离的接近，关系也随之增大；（2）有效的减少了与待平滑数据较远的数据的干扰，从而可以避免欠拟合。

步骤二：退化趋势预测交互环境构建

图2a和图2b分别显示了预测模型的构建（训练）和测试原理。需要说明的是，图2a中省略了拼接步骤。

强化学习算法的标准学习场景需要有一个交互式环境，该环境使算法能够探索并接收相应的奖励作为学习的反馈。因此，我们为基于DDPG的退化趋势预测方法设计了一个交互式环境。图1显示了用于退化趋势预测的交互式环境的详细流程。在参考文献1（V.Mnih, K. Kavukcuoglu, D. Silver, A.A. Rusu, J. Veness, M.G. Bellemare, A.Graves, M. Riedmiller, A.K. Fidjeland, G. Ostrovski, S. Petersen, C. Beattie,A. Sadik, I. Antonoglou, H. King, D. Kumaran, D. Wierstra, S. Legg, D.Hassabis, Human-level control through deep reinforcement learning, Nature.518 (2015) 529–533. doi:10.1038/nature14236）中，强化学习算法使用的交互式环境是一系列Atari游戏。算法会收到一组连续的游戏截图（作为每个时间点的状态），输出控制命令（作为每个时间点的动作），然后接收得分（作为每个时间点的奖励）。同样，本发明的交互式环境包含一系列电池退化趋势曲线，以供退化趋势预测算法学习。在每个时间点，交互式环境都会随机选择一条曲线以供算法处理。需要注意的是，状态是一个固定长度的序列，而动作也是一个比状态的长度短的固定长度的序列。状态和动作的长度分别表示为L_s和L_ a。算法每次与环境交互时，环境会将当前算法给出的动作拼接至当前状态的结尾，并丢弃与动作长度相同的状态的前部，从而创建长度为L_s的新状态。然后，环境通过使用包含均方误差（MSE）和均方根误差（RMSE）在内的指标评估最近获得的状态与真实曲线的相应部分之间的差异来计算奖励。连续进行该过程，直到完全预测出相关曲线为止。在本发明中，每次预测算法与环境互动并获得奖励描述为一个回合，而一条曲线的完整预测则描述为一局游戏。

在本发明中，退化趋势预测环境能够同时应用于模型训练过程以及模型训练完成之后的退化趋势预测过程。在模型训练过程和退化趋势预测过程中，最显著的不同在于两点，分别为是否要计算奖励值以及单条退化趋势曲线的模型计算次数。对于模型训练过程来说，选定的退化趋势曲线的长度是已知的，因此其探索的次数是能够直接计算得到的，即判断当前曲线探索完成的方法是判断当前探索的次数是否等于

，其中L_c为当前退化趋势曲线的长度，INT[*]为取整函数。而对于退化趋势预测过程来说，待预测的退化趋势是未知的，因此预测的步数只能根据工程经验，选择一个相对合理的较大的数值。例如在本发明中，25℃下的训练数据最长的充放电循环数为3600次，因此在该温度条件下，将预测的步数设置为INT[3800/L_a]+1次是合理的。

步骤三：基于深度确信策略梯度方法的预测模型训练及测试

图3说明了所提出的基于DDPG的退化趋势预测方法的详细流程。该方法的核心步骤包括三个部分，即退化趋势曲线的预处理，用于预测的DDPG模型的训练和以及获得的退化趋势预测模型的测试。需要说明的是，图中省略了拼接步骤。

步骤301：原始数据的预处理

对于长期的退化趋势预测，数据预处理是至关重要的步骤，它可能会严重影响预测算法的性能。在本发明中，原始数据的预处理主要包括归一化和平滑化。归一化过程使用最小-最大归一化方法将原始数据线性地重新缩放为0-1的间隔，以提高深度神经网络的训练效率和稳定性。数据平滑过程基于LWR算法；它抑制了局部波动并扩大了原始数据的趋势。此外，由于LWR算法是一种非参数局部方法，因此可以在没有先验知识的情况下将其应用于测试样本。

步骤302：基于DDPG的退化趋势预测模型训练准备过程

在训练过程开始之前，训练集样本将被加载到交互式环境中。其中，交互式环境的设计及运行方式如步骤二所述。同时，设置DDPG的相关参数（例如游戏局数，深度神经网络的超参数和DDPG的核心参数）基础。具体待设置的参数展现于表格2和表格3中。

步骤303：DDPG算法与环境进行交互，形成记忆库

在更新DDPG算法参数之前，需要DDPG算法与环境进行多次交互形成记忆库，从而为DDPG算法中的参数更新提供样本。具体来说，交互环境输出长度为N的当前状态，DDPG算法根据当前状态给出当前的动作结果，交互环境根据DDPG给出的动作结果计算当前的奖励值，并给出下一时刻的状态。单次的记忆由当前状态、当前动作、当前奖励以及下一时刻状态组成。上述过程循环进行一定的次数N_m，直到一个预设的记忆库大小被填充满。假设单条记忆的长度为L_r，则记忆库的大小为N_m * L_r。

此外，考虑到DDPG算法是一种确信策略梯度方法，其与环境的交互过程中无法自发地对环境进行探索，因此在探索初期需要主动向DDPG给出的动作结果加入高斯白噪声，取代DDPG算法直接给出的动作结果。具体做法是采样得到一个与动作结果等长的白噪声序列，将该序列与当前动作结果相加。一旦随机探索次数达到预设的次数，该过程则停止。

步骤304：从记忆库随机抽取历史记忆形成mini-batch，更新DDPG算法参数

与基于监督学习进行深层神经网络参数训练的过程类似，本步骤每次利用采样得到的mini-batch对DDPG中集成的深层神经网络参数进行更新。参数更新过程如参考文献2（T.P.Lillicrap, J.J. Hunt, A. Pritzel, N. Heess, T. Erez, Y. Tassa, D. Silver, D.Wierstra, Continuous control with deep reinforcement learning, 4th Int. Conf.Learn. Represent. ICLR 2016 - Conf. Track Proc.）。本发明在图2中对算法更新的核心步骤进行了简述。值得注意的是，在进行算法参数更新的过程中，将会形成新的记忆。新形成的记忆将被加入到记忆库中，并将历史记忆“挤出”记忆库，具体的方式是最新形成的记忆将记忆库中最旧的记忆挤出。

步骤305：利用训练好的DDPG模型预测退化趋势

用于预测的原始数据同样需要按照步骤301中的方法进行预处理。其中，每个预测样本仅提供长度为L_s的起始状态即可。当预测模型接收到待预测样本的起始状态时，它将给出对应的预测动作，交互环境将会把该动作拼接到起始状态的最后作为当前的整体预测结果。在此基础上，交互环境会将当前预测状态从右向左截取等于单次状态长度的序列作为下一时刻的状态输入。上述过程将会重复进行直到到达预先设置的截止次数。最终，通过将算法给出的每次预测动作进行拼接得到最终的预测趋势曲线结果。最终的预测结果还需要通过LWR方法对进行平滑处理，以更加清楚地显示退化趋势预测结果。

本发明的具体实施例

锂离子电池数据情况说明

对于锂离子电池来说，25℃温度条件下、1C放电倍率条件下的循环寿命是其性能指标的核心之一。锂电池的充放电循环全寿试验是获取该数据的途径，但是在25℃条件下完成完整的试验过程平均需要长达八个月的时间。为了提升试验效率，通过增加45℃、60℃条件下的充放电循环寿命试验，可以提升充放电循环试验的效率。以图4中的锂离子电池充放电循环寿命曲线为例，图中横坐标为充放电循环数，纵坐标是锂电池每一次充满电后的电池容量，其单位是毫安时。可以看到，在25℃条件下，最大循环数能够达到接近4000个循环，粗略估算，以每个循环耗时两个小时计算，不算充放电之间的电池静止时间，试验时间将达到330天左右。因此，可以考虑只做50%的充放电循环全寿试验，然后以前50%的退化曲线数据进行建模，对锂电池的全寿进行预测，如果预测准确度达标，即可节省50%的试验时间。

用于验证本发明中所提出方法的数据来源于针对146个软包锂离子电池在三种不同温度条件下进行了一系列充电和放电循环测试。这些锂离子电池具有92种不同的配方，其中不同的配方涉及阳极材料，电解质溶液，阴极和隔板的各种组合。图3显示了6种配方在三种不同温度条件下的性能退化趋势。水平轴和垂直轴分别是采样点数和归一化容量值。可以看到，随着温度的升高，电池的退化速度会大大加快。由于温度条件对锂电池的退化趋势特性有重大影响，因此本发明分别在三种不同温度条件下对所提出的方法进行了分析。此外，由于本发明中分析的数据是在配方设计阶段从电池制造商处获得的测试数据。因此，在相同温度下属于不同配方的电池的退化趋势可能存在显著差异，同时在相同温度下相同配方的电池的不同单体的退化趋势是相似的。因此，本发明的数据集划分方式为在给定温度下，从每种配方中随机选择一条曲线来建立训练集，而测试集将包括所有其余曲线。表格1显示了本发明中的数据分布以及训练和测试集中包含的样本数量。此外，在本发明所分析的数据集中，某些配方只有一个样本，在这种情况下，本发明选择将该样本添加到训练集中。通过这种方法，该算法可以尽可能多地同时学习更多不同配方下的退化趋势曲线，以验证本方法的泛化性能。

表格 1 本发明中所用到的数据具体分布情况

基于深度确信策略梯度的预测模型参数设计

本发明中DDPG算法中的演员和评委均是基于全连接层网络构建的，每个隐藏层的激活函数均为线性整流单元（rectified linear unit，ReLU）。此外，为了提高深度神经网络的泛化能力，本发明将L1正则化和Dropout技术施加于演员和评委网络的各个隐藏层。本发明中使用Adam方法来优化深度神经网络的参数，其中演员网络和评委网络的参数是分别进行更新的。此外，为解决优化神经网络参数时可能出现的梯度爆炸问题，本发明中采用了梯度裁剪方法。在本发明中，每层梯度向量的L2范数被限制为小于100。表格2中说明了DDPG中所包含的深层神经网络的结构参数。演员网络和评委网络的输入层的长度与单次预测输入的长度相同，演员网络的输出层的神经元数与单次预测结果输出长度相同。表格3列出了DDPG算法中的核心参数的具体数值。

表格2本发明中DDPG算法包含的深层神经网络结构参数

表格3 本发明中DDPG算法相关超参数列表以及对应数值

1.1本方法实施效果

在本方法中，使用了两个典型指标，即均方误差（mean squared error, MSE）和R平方值(R-square)来量化评估预测的退化趋势曲线的准确性。MSE定义如下：

其中

是真实值，

是预测值。MSE反映的是预测结果的整体平均误差情况。R平方值定义如下：

其中

是原始数据均值与预测数据之间差值的平方和，

是原始数据和均值之差的平方和。 R平方值衡量退化趋势预测的效果，其中预测效果越好，该值越接近1。

为了进一步评估所提出方法的性能，本发明选择了其他四种方法来对比预测退化趋势曲线。这些方法包括基于自回归综合移动平均（ARIMA）模型的预测方法，基于长期短期记忆（LSTM）模型的预测方法，基于门控递归单元（GRU）模型的预测方法以及基于全连接神经网络的（FC）模型的预测方法。其中，基于LSTM的预测方法、基于GRU的预测方法以及基于FC的预测方法的结构参数（层数和每层中的神经元数）与基于DDPG的预测方法相同。详细的测试结果在附录的表A.1至表A.6中显示。表A.1，表A.3和表A.5是在不同温度条件下训练集的分析结果，表A.2，表A.4和表A.6是测试集的分析结果。表格4和表格5列出了所有方法的MSE和R平方结果以及对应的均值和标准差。

如表格4所示，与其他方法相比，本发明所提出方法在预测准确性和稳定性方面达到了最佳性能。纵向来看，对于相同的数据集和相同的温度条件，本方法预测结果的MSE值的平均值和标准偏差最小。横向来看，本方法的MSE的均值和标准偏差很小，这表明其可以准确学习各种配方在不同温度条件下的退化趋势，并根据部分起始阶段的退化趋势稳定地进行外推式的退化趋势预测。同样，表格5中的R-square结果说明了所提出方法的良好性能。可以看出，本发明所提出方法的平均R-square值接近1，标准偏差接近0。表格5中的统计结果表明，本方法预测的退化趋势曲线有效地拟合了真实曲线。

表格4和表格5中的结果表明，基于ARIMA的预测方法无法确定实验数据的退化趋势。本发明中所分析的锂离子电池具有较长的循环寿命，因此得到的退化趋势曲线包含数千个数据点。对于基于ARIMA自回归方法构建的预测模型，很难连续获得数千次准确的外推式预测结果。此外，考虑到真实数据来自电池生产商真实的测试环境，即使使用LWR方法进行平滑后，ARIMA结果中仍然存在许多噪声成分，从而降低了预测的准确性。

对于基于GRU的预测方法，从表格4和表格5中可以看出其预测的稳定性比所提出的方法差。尽管GRU方法在60°C时可以在一定程度上识别退化趋势，但是在25°C和45°C的测试集的预测过程中，在某些配方的样本预测结果中显示出较大的偏差。这些结果表明，基于GRU的方法在泛化能力方面不如所提出的方法。对于基于LSTM的预测方法，测试结果总体来说比基于GRU的方法差，但是在60°C时的测试结果非常好。此外，尽管基于FC的预测方法可以在60℃条件下识别和预测退化趋势，但不能稳定地识别和预测25℃和45℃下的退化趋势。此外，基于FC的方法中使用的神经网络的结构与所提出的方法中的演员网络的结构相同。可以看出，在使用相同的全连接层深度神经网络的条件下，传统的监督学习架构下的训练方法无法准确训练得到可以识别多配方锂电池的退化趋势预测网络。但是，使用基于确定性策略梯度的方法获得的具有相同结构的深层神经网络可以稳定，准确地识别和预测退化趋势。

此外，如图4所示，与其他两个温度下的数据相比，在60℃下的数据包含的循环次数更少，并且在60℃下的数据的一致性和平滑度更好。因此，如表格4和表格5所示，基于GRU的方法，基于LSTM的方法和基于FC的方法在60℃下获得良好的预测结果。而在其他两个温度条件下，这些方法的效果较差。但是，本发明所提出的方法在所有三个温度条件下均得出令人满意的预测，因此证明了其相对于其他方法的优越性。

表格4 本发明所提出方法以及对比方法预测结果的MSE值结果

表格5本发明所提出方法以及对比方法预测结果的R-square值结果

本方法实施效果分析

1. 在识别锂离子电池退化趋势这种时间序列数据的准确性和稳定性方面，本发明所提出的基于深度强化学习的方法优于基于监督学习的深度学习方法。这是因为监督学习的目的是使模型输出与训练样本之间的差异最小化，而DRL的目标是使连续预测的累积奖励最大化。因此，DRL的机理更适合于构建锂电池的长期退化趋势预测模型。通过对比发现，本发明所提出的方法可以稳定地预测长期退化趋势，并能够不受原始数据中的短期波动的影响。与基于ARIMA的预测模型相比，尽管通过LWR方法对原始数据进行了平滑处理，但是基于ARIMA的预测方法在自回归过程中无法准确地进行外推。同样，本发明中所对比的其他方法在预测过程中也容易受到短期波动的影响。

2. 考虑到本发明中所分析分析的退化趋势数据是在较长的测试时间内采集得到的，因此随机噪声对原始数据的影响较为明显。本发明所提出方法在探索过程中，模型的输出中被加入了由白噪声中采样得到的随机噪声，因此模型具备了考虑噪声影响的能力。因此与现有的机器学习方法相比，所提出方法在降低噪声干扰方面具有一定优势。

3. 本发明所提出的方法在学习大量的多配方退化趋势曲线中显示出良好的性能。由于不同配方的退化趋势之间可能存在差异，因此使用具有足够泛化能力的复杂模型来挖掘相关的退化模式并预测新电池的性能可以提高制造商的测试效率。深度神经网络在拟合大量数据方面具有明显的优势。但是，对于基于监督学习的训练方法来说，基本前提假设是训练样本之间满足独立同分布条件。因此，使用由不符合这些假设的数据时间序列组成的训练样本集获得的模型通常难以收敛并且显示出较差的泛化性能。针对上述问题，借助DDPG训练过程中引入的记忆重播方法和本发明提出的交互式环境设计方法，避免了训练样本之间的相关性影响，并显著提高了深层神经网络的训练效率和泛化能力。

4. 本发明的最终目标是能够为电池制造商预测新开发配方的退化趋势，以减少所需的测试量并加快新配方的设计流程。现有的许多拟合方法，包括基于监督学习的深度学习方法，都无法满足制造商的实际需求。因此，受DRL在游戏和机器人控制中成功应用的启发，我们提出了一种基于DDPG的方法来学习并预测大量样本的退化趋势曲线，以满足电池制造商的实际预测需求。此外，随着电池制造商为新配方积累越来越多的退化趋势曲线，本方法的泛化能力将得到进一步提高，并且可以用于挖掘不同配方的退化数据之间的相关性，从而减少不同配方电池设计过程中所需要的循环寿命测试数量。

尽管上文对本发明进行了详细说明，但是本发明不限于此，本技术领域技术人员可以根据本发明的原理进行各种修改。因此，凡按照本发明原理所作的修改，都应当理解为落入本发明的保护范围。

Claims

1.一种锂电池长期退化趋势预测方法，包括：

所述交互环境和预测模型按照对所述第一次预测趋势曲线进行处理的相同方式，对第二次预测趋势曲线以及后续预测趋势曲线进行处理，直至得到最终预测趋势曲线。

2.根据权利要求1所述的锂电池长期退化趋势预测方法，还包括对最终预测结果进行平滑处理，以便清楚地显示退化趋势预测结果。

3.根据权利要求1所述的锂电池长期退化趋势预测方法，其中，所述预测模型是由DDPG算法构成的预测模型；通过利用已知的锂电池训练集样本对所述预测模型进行训练，得到所述训练好的预测模型。

4.根据权利要求1或2或3所述的锂电池长期退化趋势预测方法，其中，输入到预测模型的状态是一个固定长度的序列，所述预测模型给出的预测动作是一个比所述状态的长度短的固定长度的序列。

5.根据权利要求3所述的锂电池长期退化趋势预测方法，其中，通过利用已知的训练集样本对所述预测模型进行训练，得到所述训练好的预测模型包括以下迭代处理：

所述预测模型根据所输入的状态给出预测动作；

6.根据权利要求5所述的锂电池长期退化趋势预测方法，其中，利用所述当前状态、预测动作、奖励值以及下一时刻状态在内的元素对预测模型的参数进行优化包括：

保存所述当前状态、预测动作、奖励值以及下一时刻状态；

7.根据权利要求6所述的锂电池长期退化趋势预测方法，其中，将所述迭代处理的当前状态、预测动作、奖励值以及下一时刻状态保存到一个预设的记忆库中，直至所述记忆库被充满。

8.根据权利要求7所述的锂电池长期退化趋势预测方法，其中，从所述记忆库随机抽取历史记忆形成mini-batch，更新DDPG算法参数。

9.根据权利要求6所述的锂电池长期退化趋势预测方法，其中，所述参数包括深度神经网络的超参数和DDPG的核心参数。

10.根据权利要求5-9任一项所述的锂电池长期退化趋势预测方法，通过利用已知的训练集样本对所述预测模型进行训练，得到所述训练好的预测模型还包括：利用已知的锂电池测试集样本对训练好的预测模型进行测试，以便确定训练好的预测模型是否达到预期。