CN115632179A

CN115632179A - 一种锂离子电池智能快速充电方法及系统

Info

Publication number: CN115632179A
Application number: CN202211635957.4A
Authority: CN
Inventors: 赵越; 徐科; 刘晓楠; 祖国强; 魏中宝; 戚艳; 谢秦; 赵长伟; 钟浩; 王坤
Original assignee: State Grid Corp of China SGCC; State Grid Tianjin Electric Power Co Ltd; Electric Power Research Institute of State Grid Tianjin Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Tianjin Electric Power Co Ltd; Electric Power Research Institute of State Grid Tianjin Electric Power Co Ltd
Priority date: 2022-12-20
Filing date: 2022-12-20
Publication date: 2023-01-20
Anticipated expiration: 2042-12-20
Also published as: CN115632179B

Abstract

本发明提供了一种锂离子电池智能快速充电方法及系统，属于锂电池充电技术领域，其中方法包括：确定锂离子电池关键参数，并基于关键参数构建电池电化学‑热老化模型；基于电池电化学‑热老化模型构建充电准则，对充电准则进行训练；构建元组，元组包括状态变量、动作变量和奖励函数；构建柔性行动者‑批评家网络；基于元组对柔性行动者‑批评家网络进行训练。本发明通过构建充电准则，然后通过强化学习得到元组，随后通过元组对柔性行动者‑批评家网络进行训练，得到第一充电策略的行动者网络；本发明通过简化电化学‑热老化模型，从电流、电压、荷电状态、温度、副反应五个部分进行优化，快速寻找到智能快速充电方法中的关键参数。

Description

一种锂离子电池智能快速充电方法及系统

技术领域

本发明属于锂电池充电技术领域，特别涉及一种锂离子电池智能快速充电方法及系统。

背景技术

锂离子电池是一类由锂金属或锂合金为正/负极材料、使用非水电解质溶液的电池锂离子电池，广泛应用于新能源汽车，目前锂离子电池的问题在于降低充电时间，而且要保证其安全性。

基于锂离子电池模型，模拟预测充电过程中的电池状态，基于关键状态构建优化充电的目标函数和相应约束，是加快充电速度、提升快充安全性和减缓电池老化的有效手段。在众多锂离子电池模型中，等效电路模型以其较高的精度和极低的计算复杂度，被广泛应用于基于模型的充电方法中。但是等效电路模型难以反应充电过程中电池内部的多物理过程，对于析锂、热失控等常见威胁充电安全的机理过程缺少模拟预测能力。此外，常见的基于模型的充电方法都严重依赖模型精度，且受限于计算效率，其在线应用的可行性差。

因此，面向锂离子电池复杂机理过程，如何实现电池智能快速充电仍是现阶段亟待解决的技术问题。

发明内容

针对上述问题，本发明提出一种锂离子电池智能快速充电方法及系统。

为了实现上述目的，本发明采用以下技术方案：

一种锂离子电池智能快速充电方法，包括以下步骤：

确定锂离子电池关键参数，并基于关键参数构建电池电化学-热老化模型；

基于电池电化学-热老化模型构建充电准则，对充电准则进行训练，构建元组，元组包括状态变量、动作变量和奖励函数；

构建柔性行动者-批评家网络；

基于元组对柔性行动者-批评家网络进行训练，获得第一充电策略对应的行动者网络；

实时采集充电电流、端电压、环境温度、电池表面温度，通过状态观测器将采集的充电电流、端电压、环境温度、电池表面温度转换为行动者网络对应的状态变量，通过将行动者网络对应的状态变量输入第一充电策略对应的行动者网络，实时输出充电动作；

将第一充电策略对应的行动者网络移植至车载充电控制单元或充电桩控制单元。

优选地，电池电化学-热老化模型包括：

固相扩散方程中的锂离子扩散浓度，公式如下：

；

；

；

式中，c _s,avg、c _s,surf、q _avg分别为体积平均浓度、表面浓度和体积平均浓度通量；j _n（t）表示t时刻颗粒表面的孔壁通量；D _s为锂离子固相有效扩散系数；R _s为固相粒子半径；上标^±表示电极的极性；t为时间；

电极边界处的电解质浓度，公式如下：

；

式中，δ为常数；j _f表示体积电流密度；ε _e表示每个电极/分离器中的电解质体积分数；F为法拉第常数；D _eff为锂离子液相有效扩散系数；c _e为液相的锂离子浓度；c _e0为液相初始的锂离子浓度；t _c为离子的迁移数；上标^±表示电极的极性；

电极边界处的电势，公式如下：

；

式中，R为理想气体常数；T _a（t）为电池t时刻的内部平均温度；A、L为电极/隔膜的面积和厚度；κ _eff为电解质中的有效离子电导率；上标^sep表示电极的隔膜；I（t）为t时刻的电流；

锂离子插锂/脱锂反应的电极活化极化过电位，公式如下：

；

；

；

式中，k为电极中的反应速率；c _s,max为最大锂离子浓度；a _s表示固体颗粒表面的界面面积；j ₀和ξ为中间变量；η表示电极活化极过电位；

电池内部和表面温度，公式如下：

；

；

；

；

式中，T _c 、T _s 、T _f为电池内部温度、表面温度以及环境温度；R _c，R _u分别表示电池内部的热传导热阻和电池表面的对流热阻；C _c，C _s分别表示等效内部热容和表面热容；H为的电池热生成，包括欧姆热和可逆熵热；E _n为电化学反应引起的可逆熵变；SoC表示荷电量；E（t）为t时刻的电动势；V _t为的锂离子电池的终端电压；t为时间；I（t）为t时刻的电流；

锂离子电池的电动势、荷电量、终端电压和副反应过电势，公式如下：

；

；

；

；

式中，U ⁺（·）和U ^-（·）是固体颗粒表面浓度的函数，表示相应电极的开路电位；R _f表示固体电解质界面膜电阻；c _s,min，c _s,max为粒子中最小和最大锂离子浓度；U _side表示副反应的平衡电位，η _side（t）为t时刻的副反应过电势。

优选地，基于电池电化学-热老化模型构建充电准则，对充电准则进行训练，构建元组，包括以下步骤：

确定充电目标，将电池电量充至100%；

基于充电目标选择端电压、内部温度和副反应过电势为关键参数，构建充电准则；

基于充电准则进行强化学习，确定元组中的状态变量、动作变量和奖励函数。

优选地，充电准则的关系式为：

；

式中，SoC _tar为目标SoC；I(t)，V(t)，T _c(t)和η _side(t)分别是t时刻的电流，电压，内部温度和副反应过电势；I _max为电池可允许的最大电流；V _t,min，V _t,max分别为电池可允许最小和最大电压；T _min，T _max分别为电池正常工作的最小和最大温度。

优选地，状态变量的关系式如下：

；

式中，s _t为状态变量，f _nor[·]为标准化函数，用于将变量转换为[-1,1]的统一范围；η _side为副反应过电势，SoC为荷电量，V _t为的锂离子电池的终端电压；T _c为电池内部温度；t为时间。

优选地，动作变量的关系式如下：

；

式中，a _t为动作变量；I(t)为t时刻的电流；I _max为电池可允许的最大电流。

优选地，奖励函数的关系式如下：

；

式中，r为奖励函数；λ是奖励比例因子；ω _i是权重，i=1～5；C _volt（t）、C _temp（t）和C _side（t）分别表征对电压、温度和副反应的约束函数；C _soc（t）为对荷电量的约束函数，用来保证充电快速性；C _smooth（t）为平滑项函数，用于抑制充电过程中电流的剧烈波动。

优选地，行动者网络包括两个256节点的完全连接层和激活函数tanh（·）的输出层，公式如下：

；

式中，W _output 、W _hidden1 、W _hidden2 、b _hidden1 、b _hidden2和b _output为网络各层的具体参数，其中output为输出层，hidden1和hidden2为第一个和第二个隐藏层，用φ代指行动者全部网络参数；μ，σ为行动者网络输出层参数；relu（·）为完全连接层的激活函数。

优选地，批评家网络为双函数结构，公式如下：

；

式中，Q ₁，Q ₂为批评家网络的输出层参数；θ ₁，θ ₂分别代指批评家两个网络的全部网络参数；W _output 、W _hidden1 、W _hidden2 、b _hidden1 、b _hidden2和b _output为网络各层的具体参数，其中output为输出层，hidden1和hidden2为第一个和第二个隐藏层；relu（·）为完全连接层的激活函数；s _t为状态变量；a _t为动作变量。

优选地，基于元组对柔性行动者-批评家网络进行训练，获得第一充电策略对应的行动者网络，包括以下步骤：

初始化柔性行动者-批评家网络的网络参数，并设定经验池，然后初始化经验池，设定当前时刻t=0；

获取当前时刻状态值s _t，基于行动者网络的输出参数构造正态分布函数π _φ(·|s _t)，然后基于所述正态分布函数选择动作a _t~π _φ(·|s _t)，并将动作转换为实际充电电流，将其作用于电池电化学-热老化模型，获得环境反馈的下一状态值s _t+1和奖励值r _t；

基于状态值s _t+1和奖励值r _t判断下一状态是否为充电结束状态，若充电结束，给标志位d _t置1，重新初始化电池电化学-热老化模型，反之，给标志位d _t置0，将元组[s _t,a _t,s _t+1,d _t]作为一条经验存储至经验池中；

判断是否到达训练开始标志，若没有，将当前时刻加1，记为t=t+1，直至达到训练开始标志；

若到达训练开始标志，则从经验池中随机抽取一组元组；

基于从经验池抽取的元组进行批评家网络更新、行动者网络更新和目标网络参数更新；

将时间t增加1个步长，直至达到定义的最大持续时间步长t _e或充电结束标志d _t=1；

设定回合数M，直至达到最大回合数M_max，然后终止并视为策略网络和价值网络收敛，同时导出第一充电策略对应的行动者网络。

优选地，更新批评家网络，用于梯度更新的损失函数公式如下：

；

式中，D表示经验池，其中包含大量经验元组[s _t、a _t、s _t+1、r _t]；

_t+1表示从π _φ（·|s _t）分布中获取的t+1时刻的动作；γ为奖励的折扣系数；O表示数学期望；Q为批评家网络的输送层参数；θ为批评家网络的网络参数；

为目标网络参数；α是熵项的权重因子；r _t为奖励值。

优选地，更新行动者网络，用于梯度更新的损失函数公式如下：

；

式中，α是熵项的权重因子，Z(s _t)是对分布进行归一化的配分函数；

_t表示从π _φ（· |s _t）分布中获取的t时刻的动作。

优选地，更新目标网络参数，公式如下：

；

式中，τ为软更新的系数。

一种锂离子电池智能快速充电系统，包括测试模块、定义模块、构建模块、训练模块、获取模块和执行模块：

测试模块，用于确定锂离子电池关键参数，并基于关键参数构建电池电化学-热老化模型；

定义模块，基于电池电化学-热老化模型构建充电准则，对充电准则进行训练，构建元组，元组包括状态变量、动作变量和奖励函数；

构建模块，用于构建柔性行动者-批评家网络；

训练模块，用于基于元组对柔性行动者-批评家网络进行训练，获得第一充电策略对应的行动者网络；

获取模块，用于实时采集充电电流、端电压、环境温度、电池表面温度，通过状态观测器将采集的充电电流、端电压、环境温度、电池表面温度转换为行动者网络对应的状态变量，通过将行动者网络对应的状态变量输入第一充电策略对应的行动者网络，实时输出充电动作；

执行模块，用于将第一充电策略对应的行动者网络移植至车载充电控制单元或充电桩控制单元。

优选地，定义模块包括目标子模块、构建子模块和定义子模块；

目标子模块，用于确定充电目标，将电池电量充至100%；

构建子模块，用于基于充电目标选择端电压、内部温度和副反应过电势为关键参数，构建充电准则；

定义子模块，用于基于充电准则进行强化学习，确定元组中的状态变量、动作变量和奖励函数。

优选地，训练模块包括初始化子模块、反馈子模块、第一判断子模块、第二判断子模块、更新子模块、第一循环子模块和第二循环子模块；

初始化子模块，用于初始化柔性行动者-批评家网络的网络参数，并设定经验池，然后初始化经验池，设定当前时刻t=0；

反馈子模块，用于获取当前时刻状态值s _t，基于行动者网络的输出参数构造正态分布函数π _φ(·|s _t)，然后基于所述正态分布函数选择动作a _t~π _φ(·|s _t)，并将动作转换为实际充电电流，将其作用于电池电化学-热老化模型，获得环境反馈的下一状态值s _t+1和奖励值r _t；

第一判断子模块，用于基于状态值s _t+1和奖励值r _t判断下一状态是否为充电结束状态，若充电结束，给标志位d _t=1，重新初始化电池电化学-热老化模型，反之，给标志位d _t=0，将元组[s _t,a _t,s _t+1,d _t]作为一条经验存储至经验池中；

第二判断子模块，用于判断是否到达训练开始标志，若没有，将当前时刻加1，记为t=t+1，直至到达训练开始标志；若到达训练开始标志，则从经验池中随机抽取一组元组；

更新子模块，用于基于从经验池抽取的元组进行批评家网络更新、行动者网络更新和目标网络参数更新；

第一循环子模块，用于将时间t增加1个步长，直至达到定义的最大持续时间步长t _e或充电结束标志d _t=1；

第二循环子模块，用于设定回合数M，直至达到最大回合数M_max，然后终止并视为策略网络和价值网络收敛，同时导出第一充电策略对应的行动者网络。

优选地，状态观测器为粒子滤波观测器、扩展卡尔曼滤波观测器、龙贝格观测器和滑膜观测器中的一种。

本发明的有益效果：

1、本发明通过构建充电准则，然后通过强化学习得到元组，随后通过元组对柔性行动者-批评家网络进行训练，得到第一充电策略的行动者网络，提供了一种锂离子电池智能快速充电的方法；

2、本发明通过简化电化学-热老化模型，从电流、电压、荷电状态、温度、副反应五个部分进行优化，快速寻找到智能快速充电方法中的关键参数；

3、本发明能够智能兼顾锂离子电池充电过程的快速性、安全性与寿命预期，实现安全及耐久性快速充电，在离线训练环节中求解强非线性电池模型和快速充电的多目标优化问题，提升了充电策略的在线应用能力。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书以及附图中所指出的结构来实现和获得。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的一种锂离子电池智能快速充电方法的流程图；

图2为本发明的锂离子电池的物理机理模型；

图3为本发明的基于柔性行动者-批评家的快速充电策略的实际执行过程；

图4为本发明实的基于柔性行动者-批评家充电方法的验证结果；

图5为本发明的实施例一中的锂离子电池快速充电系统的结构示意图；

图6为本发明的实施例二中的锂离子电池快速充电系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地说明，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，一种锂离子电池智能快速充电方法，包括以下步骤：

S1：开展锂离子电池测试，确定锂离子电池的关键参数，基于关键参数构建电池电化学-热老化模型；其中，电池电化学-热老化模型为了表征电池内部详细状态，开展多倍率下恒流充放电、混合功率脉冲特性测试、动态应力测试及联邦城市行驶工况测试、电化学阻抗等电池测试，确定电化学中关键模型参数（详见图2）；模型中的电参数和热参数是相互耦合的关系，一方面充放电过程中伴随着吸热和放热反应，因此电池的温度会发生变化，另一方面电池的温度变化还会作用于电参数，引起电参数的改变。

需要说明的是，电池电化学-热老化模型是通过关键参数来表达的，即关键参数的集合构成了电池电化学-热老化模型。

需要进一步说明的是，全阶的伪二维形式电化学-热老化模型具有较高的计算复杂度，为充分适应充电控制场景，本实施例中采用了模型的降阶简化处理，简化主要包含以下五部分内容：

简化1：固相扩散方程中的锂离子扩散浓度用三参数多项式曲线近似：

；

；

；

式中，c _s,avg、c _s,surf、q _avg分别为代表体积平均浓度、表面浓度和体积平均浓度通量，j _n（t）表示t时刻的颗粒表面的孔壁通量，D _s为锂离子固相有效扩散系数；R _s为固相粒子半径；上标^±表示电极的极性；t为时间。

简化2：液相扩散方程中的锂离子扩散解用二阶或二阶以下的多项式曲线近似。因此，两个电极任意位置处的电解质浓度可表示为：

；

式中，P ₁和P ₂是常数；f为待定的函数；A为电极/隔膜的面积；c _e为锂离子浓度；I（t）为t时刻的电流。

对于充电控制问题，仅在电极x=0^±边界处的电解质浓度是必须的，因此，电池边界处的电解质浓度为：

；

式中，δ为常数，δ=P ₁/P ₂=-37.74，j _f表示体积电流密度；ε _e表示每个电极/分离器中的电解质体积分数；F为法拉第常数；D _eff为锂离子液相有效扩散系数；c _e0为液相初始的锂离子浓度；t _c为离子的迁移数；c _e为液相的锂离子浓度。

简化3：局部体积转移电流密度j _f是一个常数，等于所在电极的平均值j _f，avg。在此假设下，局部体积转移电流密度j _f可通过以下公式从施加电流I直接计算得出：

；

式中，L为电极/隔膜的厚度。

在简化3作用下，固相欧姆定律和液相欧姆定律可以表示为：

；

；

式中，SGN为符号函数，当x位于阳极区域时，SGN=0，当x位于阴极区域时，SGN=1，上标sep表示隔膜区域，R为理想气体常数；σ _eff为电极中的有效电子电导率；κ _eff为电解质中的有效离子电导率；上标^sep表示电极的隔膜；T _a（t）为电池t时刻的内部平均温度；R为理想气体常数；A、L为电极/隔膜的面积和厚度。

考虑到固相的电子电导率远大于液相的离子电导率，因此仅需要计算电极边界处的电势x=0^±：

；

简化4：根据Butler-Volmer方程，锂离子插锂/脱锂反应的电极活化极化过电位η可利用反函数计算得到：

；

；

；

k为电极中的反应速率；T _a为电池t时刻的内部平均温度；c _s,max为最大锂离子浓度；a _s表示固体颗粒表面的界面面积；j ₀和ξ为中间变量；F为法拉第常数；η表示电极活化极过电位。

需要说明的是j ₀和ξ为简化公式的中间变量，不具备真实物理含义。

简化5：忽略电池的轴向分布，采用一系列热阻和热容来近似传导和对流过程，因此内部和表面温度可以通过径向能量平衡方程来表示：

；

；

；

；

式中，T _c 、T _s 、T _f为电池内部温度、表面温度以及环境温度；R _c，R _u分别表示电池内部的热传导热阻和电池表面的对流热阻；C _c，C _s分别表示等效内部热容和表面热容；H为电池热生成，包括欧姆热和可逆熵热；E _n为电化学反应引起的可逆熵变；SoC表示荷电量；E（t）为t时刻的电动势；V _t为锂离子电池的终端电压；t为时间；I（t）为t时刻的电流。

根据上述简化，电动势、荷电状态和锂离子电池的终端电压可计算为：

；

；

；

式中，U ⁺（·）和U ^-（·）是固体颗粒表面浓度的函数，表示相应电极的开路电位；R _f表示固体电解质界面膜电阻；c _s,min，c _s,max为粒子中最小和最大锂离子浓度。

最后，为了获得快速充电对电池老化的影响，在模型中考虑了副反应的阳极过电位。副反应过电位η _side由下式给出：

；

式中，U _side表示副反应的平衡电位，η _side为副反应过电势；η表示电极活化极过电位。

S2：基于电池电化学-热老化模型构建充电准则（即通过关键参数构建充电准则），通过充电准则进行强化学习，构建元组，元组包括状态变量、动作变量和奖励函数；其中充电准则为在满足安全和健康要求的前提下对电池充电，下面对S2的具体步骤进行说明：

S201：确定充电目标，将电池电量充至100%；

S202：基于充电目标选择端电压、内部温度和副反应过电势为关键参数，构建充电准则，其满足的关系式如下：

；

；

；

；

；

副反应过电势主要用于限制快速充电过程中潜在的析锂危险，一般认为，η _side≤0时，析锂等一系列副反应将会发生，进而因此锂离子电池的容量损失和衰退，甚至出现热失控等危险；

S203：基于充电准则进行强化学习，确定元组中的状态变量、动作变量和奖励函数。

需要说明的是，在强化学习的基本框架中，需要根据环境反馈的状态变量决定下一步的动作，对应于最优充电控制问题，需要获取的是快速充电过程中电池需要约束的当前状态，而提供给环境的动作为电流，因此，状态变量和动作变量分别被设置为：

；

式中，s _t为状态变量，a _t为动作变量，f _nor[·]为标准化函数，用于将变量转换为[-1,1]的统一范围；SoC为荷电量，V _t为的锂离子电池的终端电压；T _c为电池内部温度；t为时间。

强化学习的主体网络通过与环境的不断交互来获取最大化长期累积奖励，而充电准则的优化目标是在保证约束的前提下使目标函数最小化，因此，可以将奖励函数设置为如下形式：

；

式中，r为奖励函数，λ是奖励比例因子，ω _i是权重，i=1～5，C _volt（t）、C _temp（t）和C _side（t）分别表征对电压、温度和副反应的约束函数；C _soc（t）为对荷电量的约束函数，用来保证充电快速性；C _smooth（t）为平滑项函数，用于抑制充电过程中电流的剧烈波动。

需要说明的是，λ是确保最大熵项和累积奖励项的反向梯度存在相对较小差异的奖励比例因子。ω_i（i=1～5）是评估每个约束关注程度的权重。

另外，在奖励函数中，第一项表示要最小化的目标函数：

；

C _volt（t）、C _temp（t）和C _side（t）表征对电压、温度和副反应的约束函数；SoC _tar表示设定的荷电量。为简单起见，C _volt（t）、C _temp（t）和C _side（t）可以表示为：

；

；

；

最后，还需要在奖励中引入了一个附加项C _smooth（t），以抑制充电过程中电流的剧烈波动：

；

式中，I(t-1)为t-1时刻的电流。

S3：构建柔性行动者-批评家网络，包括构建一个行动者网络和两个批评家网络；其中，行动者网络由两个256节点的完全连接层组成，然后是一个包含激活函数tanh（·）的输出层，公式如下：

；

式中W _output 、W _hidden1 、W _hidden2 、b _hidden1 、b _hidden2和b _output为网络各层的具体参数，其中output为输出层，hidden1和hidden2为第一个和第二个隐藏层，用φ代指行动者全部网络参数；μ，σ为行动者网络输出层参数；relu（·）为完全连接层的激活函数；T表示矩阵的转置。

批评家采用双函数网络来增强鲁棒性。其隐含层结构同行动者，不同的是输出层需要同时获得高斯分布的平均值和偏差，公式如下：

；

式中，Q ₁,Q ₂为批评家网络的输出层参数；θ ₁,θ ₂分别代指批评家两个网络的全部网络参数；W _output 、W _hidden1 、W _hidden2 、b _hidden1 、b _hidden2和b _output为网络各层的具体参数，其中output为输出层，hidden1和hidden2为第一个和第二个隐藏层；relu（·）为完全连接层的激活函数；s _t为状态变量；a _t为动作变量。

为了满足网络的训练需求，需设置批评家网络对应的目标网络，其结构与上述批评家网络相同，并用

₁，

₂分别代指目标网络的全部网络参数。

S4：基于元组对柔性行动者-批评家网络进行训练，获得第一充电策略对应的行动者网络，其中，第一充电策略指最优的快速充电策略，S4的具体步骤如下：

S401：初始化柔性行动者-批评家网络的网络参数，并设定经验池，然后初始化经验池，设定当前时刻t=0；

S402：获取当前时刻状态值s _t（t时刻状态变量对应的值），基于行动者网络的输出参数（μ和σ），构造正态分布函数π _φ(·|s _t)，然后基于正态分布函数选择动作a _t~π _φ(·|s _t)，并将动作转换为实际充电电流_t，将其作用于电池电化学-热老化模型，获得环境反馈的下一状态值s _t+1和奖励值r _t；

S403：基于状态值s _t+1（t+1时刻状态变量对应的值）和奖励值r _t判断下一状态是否为充电结束状态，其判断规则为：从s _t+1中解析出变量SoC，与设定的SoC _tar进行对比，当SoC不小于SoC _tar时，认为充电结束，给标志位d _t置1，重新初始化电池电化学-热老化模型，反之，给标志位d _t置0，将元组[s _t,a _t,s _t+1,d _t]作为一条经验存储至经验池中；

S404：判断是否到达训练开始标志，判断的准则为经验数量是否达到设定的经验池最大值N，若没有，将当前时刻加1，记为t=t+1，直至达到训练开始标志；若到达训练开始标志，则从经验池中随机抽取一组数据，在本实施例中每组数据包含128个经验。

S405：基于从经验池抽取的元组进行批评家网络更新、行动者网络更新和目标网络参数更新；其中，首先更新批评家网络，执行最小化柔性贝尔曼残差的操作：

；

为目标网络参数；α是熵项的权重因子；r_t为奖励值。最小化过程采用的优化器为Adam，后续的更新中同样采用相同的优化器。

然后执行行动者网络的参数更新，同样基于经验池获取的一组经验，执行最小化的KL差异的操作：

；

式中，α是熵项的权重因子，本实施例中采用固定的值，Z(s _t)是对分布进行归一化的配分函数，其对梯度没有贡献，可以忽略；

_t表示从π _φ（·|s _t）分布中获取的t时刻的动作。

为了通过梯度下降达到J _π的最小值，需要采用重新参数化技巧来确保梯度的反向传播，因此：

；

式中，

表示表示经过重新参数化后的动作；

和

对应于行动者网络π _φ的平均值和标准偏差。ε _t表示从标准正态分布中采样的噪声，

表示对应位置元素相乘的运算符。

最后，更新目标网络参数，公式如下：

；

式中，τ为软更新的系数。

S406：将时间t增加1个步长，循环执行S402~S405，直至达到定义的最大持续时间步长t _e或充电结束标志d _t=1；而在本实施例中，该实例中t _e=3000s。

S407：当S406结束后，则视为训练执行了一个回合，重复训练这个过程，设定回合数M，直至达到最大回合数M_max，然后终止并视为策略网络和价值网络收敛，同时导出第一充电策略对应的行动者网络。

需要说明的是，该实施例中，M=600，至此完成了策略网络的训练。

S5：实际运行的示意图如图3所示，其中左上展示的为导出第一充电策略对应的行动者网络，右上侧展示了一种电池状态估计模块的示意图，其作用为估计电池内部不可测状态，左下侧展示的为状态的状态的离差标准化操作，右下侧则代表真实的物理电池。通过电压、电流、温度等真实电池端传感器实时采集充电电流、端电压、环境温度、电池表面温度等物理量，结合状态观测器将采集的充电电流、端电压、环境温度、电池表面温度转换为行动者网络对应的状态变量，利用行动者网络对应的状态变量输入第一充电策略对应的行动者网络，通过网络计算获得实时输出的充电动作，该充电动作将被继续作用于正式电池上，重复上述过程直至完成全部充电过程；

需要说明的是，基于上述步骤，通过基于柔性行动者-批评家的第一（最优）充电策略，对电池的充电电流进行实时计算，对充电速度进行奖励，对过电压、过热以及析锂等多种危险因素进行软性惩罚，通过对多个冲突目标进行智能优化，实现具备安全意识和健康主动意识的快速充电最优控制。

S6：将第一充电策略对应的行动者网络，移植到车载充电控制单元，实现该车辆的实时最优充电控制操作，也可以将其移植到充电桩控制单元，在充电桩控制单元中建立起多种电池的此类充电策略数据库，通过与车辆的充电前通讯，选择对应的最优充电控制策略，满足为同一类车充电的需求。

需要说明的是，对基于柔性行动者-批评家的快速充电方法进行验证，结果如图4所示，图4中，（a）为充电倍率与时间的关系，（b）为终端电压与时间的关系，（c）为电池内部温度与时间的关系，（d）为副反应过电势与时间的关系，（e）为荷电状态与时间的关系。结果表明方法在最大化充电速度的同时保持电池端电压不超过4.2V，内部温度不超过设定的45℃以及副反应电势不低于0V，实现充电速度与过压、过热和副反应保护的智能兼顾。

另外，如图2所示，其左侧展示了电化学模型的示意图，其中锂离子电池的正负极固相部分采用球状粒子进行模拟，两端是集流体，中间由隔膜隔开。充电时锂离子由正极脱嵌，并通过隔膜嵌入负极活性材料中。右侧展示了一种圆柱电池的两状态热模型示意图，模拟了电池表面和核心之间的导热过程，以及电池表面和环境之间的换热过程。

实施例一

如图5所示，一种锂离子电池智能快速充电系统，包括测试模块、定义模块、构建模块、训练模块、获取模块和执行模块：

构建模块，用于构建柔性行动者-批评家网络；

进一步地，定义模块包括目标子模块、构建子模块和定义子模块；

目标子模块，用于确定充电目标，将电池电量充至100%；

进一步地，训练模块包括初始化子模块、反馈子模块、第一判断子模块、第二判断子模块、更新子模块、第一循环子模块和第二循环子模块；

反馈子模块，用于获取当前时刻状态值s _t，基于行动者网络的输出参数μ，σ构造正态分布函数π _φ(·|s _t)，然后基于正态分布函数选择动作a _t~π _φ(·|s _t)，并将动作转换为实际充电电流_t，将其作用于电池电化学-热老化模型，获得环境反馈的下一状态值s _t+1和奖励值r _t；

进一步地，状态观测器为粒子滤波观测器、扩展卡尔曼滤波观测器、龙贝格观测器和滑膜观测器中的一种。

实施例二

图6是本发明的锂离子电池快速充电系统的另一种实施方式，该快速充电系统包括：模型参数辨识模块、电池状态估计模块、智能充电控制模块、阈值判断模块；

模型参数辨识模块用于对电化学模型的关键参数进行筛选并辨识，得到辨识值；

电池状态估计模块利用粒子滤波、扩展卡尔曼滤波、龙贝格观测器、滑膜观测器中的一中状态估计方法，得到估计结果；

智能充电控制模块，基于状态估计结果对锂离子电池进行快速充电，并通过深度强化学习算法对快速充电阶段进行智能优化处理；

阈值判断模块用于判断锂离子电池端电压是否达到预设电压阈值，若未达到，则继续以基于模型的智能优化电流对电池进行充电，否则采用恒压充电规则对电池进行充电。

需要说明的是，锂离子电池充电电流大小包括0C-2C，其中，C为电池一小时完全放电时的电流强度；恒压充电规则的截止条件为充电电流降至0.05C，或人为干预停止充电。

需要说明的是，本发明实施例一和二所提供的电池快速充电系统可执行本发明任意实施例所提供的锂离子电池快速充电方法，具备执行方法相应的功能模块和有益效果，可用于电动车辆电池管理系统或直流充电桩。值得注意的是，上述电池快速充电系统的实施例中，所包括的各个模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各模块的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。