CN116151451A - 基于三重强化学习的电池制造能力可变权组合预测方法 - Google Patents

基于三重强化学习的电池制造能力可变权组合预测方法 Download PDF

Info

Publication number
CN116151451A
CN116151451A CN202310153214.1A CN202310153214A CN116151451A CN 116151451 A CN116151451 A CN 116151451A CN 202310153214 A CN202310153214 A CN 202310153214A CN 116151451 A CN116151451 A CN 116151451A
Authority
CN
China
Prior art keywords
prediction
optimal
window
reinforcement learning
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310153214.1A
Other languages
English (en)
Inventor
王子赟
俞银泉
王艳
张俊杰
纪志成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangnan University
Original Assignee
Jiangnan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangnan University filed Critical Jiangnan University
Priority to CN202310153214.1A priority Critical patent/CN116151451A/zh
Publication of CN116151451A publication Critical patent/CN116151451A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/04Manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • General Business, Economics & Management (AREA)
  • Mathematical Physics (AREA)
  • Marketing (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Tourism & Hospitality (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Development Economics (AREA)
  • Primary Health Care (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Manufacturing & Machinery (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了基于三重强化学习的电池制造能力可变权组合预测方法,属于动力电池制造预测领域。该方法针对锂电池制造能力周期性、突变性以及季节性等特征,选择相应模型分别挖掘时间序列中的线性和非线性特征构成新的组合预测模型;针对现有方法难以得到最优组合预测权重的问题,设计了双层强化学习算法求解该时间下最优权重矩阵,降低预测误差;此外,由于在不同时间点各单一预测模型的预测效果也不同,本申请融合强化学习和熵值思想,探索最优滑动窗口长度,运用滑动窗口对预测序列进行划分,并在各窗口内使用双层强化学习算法确定最优组合权重,最终构造三重强化学习电池制造能力组合预测模型,进一步提高了电池制造能力的预测精度和可靠性。

Description

基于三重强化学习的电池制造能力可变权组合预测方法
技术领域
本发明涉及基于三重强化学习的电池制造能力可变权组合预测方法,属于动力电池制造预测领域。
背景技术
近年来,锂电池作为新能源汽车核心部件,其产品的高品质制造领域的研究取得了越来越多的关注。当前的研究领域,研究成果主要集中在对电池产品质量的分析,例如电量监测和电池健康状态估计等领域。但事实上,准确掌握未来一段时间内的电池制造能力,对于电池生产企业合理安排生产计划和制定市场战略规划都有非常重要的意义。然而,当前这一领域的研究成果相对匮乏。
电池的制造能力可以描述为单位时间内生产合格电池的数量,由于电池的制造能力数据是按照制造时间顺序排列而成的数列,是在相等间隔的时间段内按照确定的采样频率得到的数据结果,可见电池的制造能力数据具有一定的规律性。因此,对锂电池制造能力的预测本质上是一类时间序列预测问题。
在实际工程中,锂电池的制造能力通常受单位时间内机器的工作情况以及工作人员排班情况等生产因素和电池订单量及交付时间等市场因素的影响,因此现有技术中使用单一的预测方法并不能完整的挖掘出锂电池制造能力的时间序列特征。因此出现了组合模型预测方法,但这类方法则又会涉及到各模型权重的问题,是否获得最优权重系数会直接导致其预测结果的精准性,因此需要考虑最优权重系数的问题如何解决。
在现有的时变权重选择策略研究成果中,设置滑动窗口是实现时变权重的一种常规方式,选择合适的窗口长度对于预测精度有很大的影响,在以往的研究中,对于窗口长度的选择往往通过观察法或者经验法,通常难以获得最优的滑动窗口长度;相对来说,熵值法可以解决最优滑动窗口长度的问题,但其对算力要求较大,不适合实际应用。
此外传统的组合模型权重确定方法包括层次分析法和自适应权重法等,然而,这类方法往往难以获得最优权重系数,导致预测精度并不能达到最优。
发明内容
为了实现电池制造能力的准确预测,帮助企业合理安排生产计划和制定市场战略规划,提高经济效益。本发明提供了一种基于三重强化学习的电池制造能力可变权组合预测方法,所述方法在进行电池制造能力预测时,首先定义了新的组合预测形式,其次引入滑动窗口并设计第一重强化学习:强化学习-熵算法确定最优窗口长度,最后为了将单一算法的性能充分融合,在每个窗口下设计双层强化学习算法对单一预测结果进行最优权重探索,并将得到的权重进行组合相加得到该时间点下的最优预测值,继续滑动窗口直到对整个预测序列实现最优赋权,实现了电池制造能力可变权组合预测。
一种基于三重强化学习的电池制造能力可变权组合预测方法,所述方法包括:
步骤S1,基于LSTM、GRU和SARIMA单一预测模型构建组合预测模型,并根据t时刻前的历史生产数据,分别利用LSTM、GRU和SARIMA单一预测模型获得t时刻的预测结果
Figure BDA0004091446130000021
步骤S2,根据步骤S1中各单一预测模型的预测结果,设计强化学习-熵算法确定滑动窗口长度,获得最优滑动窗口长度l;
步骤S3,根据步骤S2中获得的最优窗口长度l,对单一预测序列
Figure BDA0004091446130000022
和真实值序列Yt进行窗口划分,以k表示划分后的时间点,同时以k时间为第一个数据的窗口称为第k个窗口;记k时刻的预测结果和真实值分别为:/>
Figure BDA0004091446130000023
Yk
步骤S4,根据步骤S3划分后的窗口数据,设计第二层强化学习对LSTM预测模型和GRU预测模型进行组合权重寻优,获得最优组合权重[ωlg],并将所述最优组合权重[ωlg]赋值给窗口内的第一个时间点k,根据权重组合相加得到时间点k处的LSTM和GRU组合预测值
Figure BDA0004091446130000024
步骤S5,根据步骤S4得到的LSTM和GRU的最优组合结果
Figure BDA0004091446130000025
与SARIMA预测结果/>
Figure BDA0004091446130000026
共同进行第三层强化学习组合权重寻优,得到最优组合权重[ωnns],并计算电池制造能力预测值;
步骤S6,滑动窗口向后不断更新数据,同时重复步骤S4和步骤S5对应计算当前窗口的最优组合权重,直到最后一个窗口,得到最优组合预测序列
Figure BDA0004091446130000027
可选的,所述步骤S2包括:
步骤S2.1,确定状态矩阵S,状态矩阵选择窗口长度l;
S=[l] (5)
步骤S2.2,将动作矩阵A设置在上一时刻的状态上进行固定幅度的加减:
A=[Δω1,-Δω1] (6)
Δω1表示加减幅度;
步骤S2.3,由真实值Yt和预测值
Figure BDA0004091446130000031
计算得t时刻第i种单项预测算法的制造能力绝对预测误差:
Figure BDA0004091446130000032
其中t=1,2,...,N,i=1,2,3;
步骤S2.4:由式(3)计算K种单项预测算法在t时刻的制造能力平均绝对误差:
Figure BDA0004091446130000033
步骤S2.5,根据式(4)计算第k个窗口下锂电池制造能力预测数据的平均绝对误差时刻的制造能力平均绝对误差:
Figure BDA0004091446130000034
并对平均绝对误差进行归一化:
Figure BDA0004091446130000035
步骤S2.6,根据式(6)计算该窗口下的制造能力预测数据的熵值:
Figure BDA0004091446130000036
步骤S2.7,引入式(7)设置损失函数L和奖惩函数R,损失函数L设置为:
Figure BDA0004091446130000037
当Ll+1<Ll时,奖惩函数R设置为:
R=1+Lt-Lt+1 (13)
当Ll+1>Ll时,奖惩函数R设置为:
R=-1+Lt-Lt+1 (14)
步骤S2.8,构建强化学习过程,得到最优滑动窗口长度。
可选的,所述步骤S4包括:
步骤S4.1,针对LSTM和GRU组合权重寻优问题,设置目标状态矩阵S=[ωlg],其中ωlg=1;
步骤S4.2,设置动作矩阵A=[Δω2,-Δω2],选择动作,对当前状态的ωl进行增减,并得到ωg,构成下一个状态,Δω2表示加减幅度;
步骤S4.3,将滑动窗口内数据的均方根误差最小作为探索目标,设置第k个窗口下进行权重寻优的损失函数L:
Figure BDA0004091446130000041
根据损失函数L,将奖惩函数设置为R=1/L;
步骤S4.4,根据步骤S4.1到步骤S4.3构建第二层强化学习寻优过程,直到达到最优迭代次数,此时探索当前窗口下LSTM和GRU的最优组合权重,将该权重赋值给窗口内的第一个时间点,根据权重组合相加得到该时间点k处的LSTM和GRU组合预测值
Figure BDA0004091446130000042
Figure BDA0004091446130000043
其中,根据公式(16)得到时间点k处的LSTM和GRU组合预测值
Figure BDA0004091446130000044
时,ωl和ωg为当前窗口下LSTM和GRU的最优组合权重值。
可选的,所述步骤S5包括:
步骤S5.1,针对基于LSTM和GRU的最优组合结果
Figure BDA0004091446130000045
与SARIMA预测结果/>
Figure BDA0004091446130000046
共同进行组合权重寻优问题,设定目标状态矩阵S=[ωnns],其中ωnns=1;
步骤S5.2,设置动作矩阵A=[Δω2,-Δω2],选择动作,对当前状态的ωnn进行增减,并得到ωs,构成下一个状态;
步骤S5.3,设置损失函数L:
Figure BDA0004091446130000047
根据损失函数L,将奖惩函数设置为R=1/L;
步骤S5.4,根据步骤S5.1到步骤S5.3构建第三层强化学习寻优过程,直到达到最优迭代次数;此时探索当前窗口下三种单一预测模型的最优组合权重,将该权重赋值给窗口内的第一个时间点,根据权重组合相加得到该时间点k处最优组合预测值
Figure BDA0004091446130000048
Figure BDA0004091446130000049
其中,根据公式(18)得到时间点k处最优组合预测值
Figure BDA00040914461300000410
时,ωnn和ωs为当前窗口下三种单一预测模型的最优组合权重值。
可选的,所述步骤S6滑动窗口向后不断更新数据时,根据步骤S2中获得的最优窗口长度l滑动。
可选的,所述步骤S1中t时刻前的历史生产数据为在相等间隔的时间段内按照预定的采样频率采集到的生产制造数据。
可选的,所述步骤S1中t时刻前的历史生产数据为t时刻前1年时间内每间隔1小时采集的生产制造数据。
可选的,所述组合预测模型中,所述LSTM和GRU模型参数包括训练轮数、初始学习率、学习率衰减轮数、学习率衰减速度和隐含层节点数;所述SARIMA模型参数包括趋势的自回归阶数、非季节性差分数、趋势的移动平均阶数、季节性自回归阶数、季节性差分数和季节性移动平均阶数。
可选的,所述步骤S4中第二层强化学习对LSTM预测模型和GRU预测模型进行组合权重寻优时加减幅度Δω1=1。
可选的,所述步骤S5中第三层强化学习组合权重寻优时加减幅度Δω2=0.001。
本发明有益效果是:
针对锂电池制造能力具有周期性、突变性以及季节性等特征,本申请选择符合预测对象特征的预测算法分别挖掘时间序列中的线性和非线性特征构成新的组合预测算法,其次相对于传统权重确定方法,难以得到最优组合预测权重,本申请设计双层强化学习算法求解该时间下最优权重矩阵,降低预测误差;此外,由于在不同时间点各单一预测算法的预测效果也不同,本申请融合强化学习和熵值思想,探索最优滑动窗口长度,运用滑动窗口对预测序列进行划分,并在各窗口内使用双层强化学习算法确定最优组合权重,最终构造三重强化学习电池制造能力组合预测模型,相较于传统定权重组合预测更能利用各单一预测算法的特征,融合各自优势,进一步提高了针对电池制造能力预测的预测精度和可靠性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例中公开的一种三重强化学习组合预测模型图。
图2是本发明一个实施例中公开的一种强化学习-熵确定滑动窗口长度的原理图。
图3是本发明一个实施例中公开的使用不同窗口长度的预测精度对比图。
图4是本发明一个实施例中公开的锂电池制造能力预测结果对比图。
图5是本发明一个实施例中公开的三重强化学习算法和长短时记忆网络预测误差对比图。
图6是本发明一个实施例中公开的三重强化学习算法和门控循环单元预测误差对比图。
图7是本发明一个实施例中公开的三重强化学习算法和强化学习-长短时记忆网络-门控循环单元预测误差对比图。
图8是本发明一个实施例中公开的三重强化学习算法和固定权重组合预测误差对比图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
实施例一:
本实施例提供一种基于三重强化学习的电池制造能力可变权组合预测方法,参见图1,所述方法基于历史生产数据,针对未来一段时间的生产能力进行预测,所述方法包括:
步骤一:针对锂电池制造能力序列特点,选取长短时记忆网络(Long Short-TermMemory,LSTM)、门控循环单元(Gated Recurrent Unit,GRU)和季节性差分自回归滑动平均模型(Seasonal Autoregressive Integrated Moving Average Model,SARIMA)作为单项预测模型构成组合预测模型,基于历史生产数据,分别得到各单项预测模型t时刻的预测结果:
Figure BDA0004091446130000061
Figure BDA0004091446130000062
其中,上标l、g和s分别代表LSTM预测模型、GRU预测模型和SARIMA预测模型;历史生产数据为t时刻之前一段时间的生产制造能力,可在相等间隔的时间段内按照确定的采样频率采集生产制造数据。
步骤二:根据步骤一的单一预测结果,设计强化学习-熵算法确定滑动窗口长度,获得最优滑动窗口长度l;
步骤三:根据步骤二获得的最优窗口长度l,对单一预测序列
Figure BDA0004091446130000063
和真实值序列Yt进行窗口划分,以k表示划分后的时间点,同时以k时间为第一个数据的窗口称为第k个窗口;则k时刻的预测结果和真实值分别为:/>
Figure BDA0004091446130000064
Yk
步骤四:根据步骤三划分后的窗口数据,设计第二层强化学习对LSTM预测模型和GRU预测模型进行组合权重寻优,获得最优组合权重[ωlg];
步骤五:根据步骤四LSTM预测模型和GRU预测模型最优组合结果
Figure BDA0004091446130000065
与SARIMA预测模型的预测结果/>
Figure BDA0004091446130000066
共同进行第三层强化学习组合权重寻优,得到最优组合权重[ωnns],并计算电池制造能力预测值;
步骤六:滑动窗口向后不断更新数据,同时重复步骤四和步骤五的算法计算该窗口的最优组合权重,直到最后一个窗口,得到最优组合预测序列
Figure BDA0004091446130000071
该方法中,第一层强化学习时,设计强化学习-熵算法确定滑动窗口长度,目标是找到使得制造能力预测子序列误差波动最小的窗口长度;保证滑动窗口长度最优的同时避免了以往确定窗口长度时枚举法带来的计算量;在第二层强化学习对LSTM预测模型和GRU预测模型进行组合权重寻优用于挖掘时间序列中的线性特征;在第三层强化学习时,基于LSTM和GRU的最优组合结果,再与用于挖掘时间序列中的非线性特征的SARIMA预测模型的预测结果共同进行第三层强化学习组合权重寻优。上述方法中,将对三模型权重寻优的过程分别在第二层强化学习和第三层强化学习中实现,避免了同时寻优将目标状态矩阵设置为S=[wl,wg,ws]导致的状态过多、智能体无法完全探索、出现状态过载和维数灾难,从而导致无法探索到最优结果的情况发生。
实施例二:
本实施例提供一种基于三重强化学习的电池制造能力可变权组合预测方法,该方法基于一种新型预测算法组合模型,针对具有周期性、突变性等特征的电池制造能力数据,选取LSTM、GRU和SARIMA作为单一预测模型构成新型组合预测模型,根据各单一预测模型的预测结果设计第一层强化学习,即强化学习-熵算法确定滑动窗口长度,获得最优滑动窗口长度l;确定最优滑动窗口长度l后,对单一预测序列
Figure BDA0004091446130000072
和真实值序列Yt进行窗口划分,根据划分后的窗口数据,设计第二层强化学习对LSTM和GRU进行组合权重寻优,获得最优组合权重[ωlg],再根据最优组合权重[ωlg]得到LSTM和GRU的预测结果,结合SARIMA预测结果/>
Figure BDA0004091446130000073
共同设计第三层强化学习组合权重寻优,得到最优组合权重[ωnns],并计算最优组合权重[ωnns]下电池制造能力预测值;滑动窗口更新数据,重复第二层强化学习和第三层强化学习,直至最后一个窗口,得到最优组合预测序列/>
Figure BDA0004091446130000074
所述方法包括:
步骤1,选取LSTM、GRU和SARIMA作为单一预测模型构成新型组合预测模型;
所述组合预测模型中,LSTM模型在t时刻有三个输入,其中Ct-1为t-1时刻的长期记忆信息,ht-1为t-1时刻的短期记忆信息,xt为t时刻输入样本,输出门it、遗忘门ft和输出门ot的求解方法如式(1)所示:
Figure BDA0004091446130000081
其中,σ为Sigmoid激活函数,w和b分别为对应门的权重矩阵和偏置向量。进而,可以获得短期记忆信息ht,长期记忆信息Ct以及模型输出结果yt,计算方法如式(2)所示:
Figure BDA0004091446130000082
GRU模型的模型输入为t-1时刻的记忆信息ht-1和t时刻的输入变量xt,对应的输入输出关系如式(3)所示:
Figure BDA0004091446130000083
其中xt是t时刻输入样本,rt和zt分别是重置门和更新门在t时刻的输出变量。
LSTM和GRU模型参数定义如下表1:
表1:LSTM和GRU模型参数
Figure BDA0004091446130000084
SARIMA(p,d,q)(P,D,Q)S模型有7个参数构成,其中p和q分别表示自回归和移动平均的阶数;d和D分别为趋势差分和季节差分的阶数;P和Q分别表示季节性自回归和季节性移动平均的阶数;S为季节周期数。SARIMA的一般表达式如式(4):
φ(B)Φ(BS)(1-B)d(1-BS)Dyt=c+θ(B)Θ(BSt (4)
其中,B为延迟算子,即Byt=yt-1,Φ(B)和Θ(B)分别为B的p阶和q阶特征多项式,φ(B)为自回归过程,θ(B)为移动平均过程,yt为输入序列,εt为白噪声。
SARIMA模型参数如表2:
表2:SARIMA模型参数
Figure BDA0004091446130000091
步骤2,根据预先采集的历史生产数据,分别得到各单项预测模型t时刻的预测结果:
Figure BDA0004091446130000092
其中,上标l、g和s分别代表LSTM预测模型、GRU预测模型和SARIMA预测模型;历史生产数据为t时刻之前一段时间的生产制造能力,可在相等间隔的时间段内按照确定的采样频率采集生产制造数据。
步骤3,根据各单项预测模型的预测结果,设计第一层强化学习:强化学习-熵算法确定滑动窗口长度,获得最优滑动窗口长度l;
参见图2,确定最优滑动窗口长度l过程包括:
步骤3.1:确定状态矩阵S,在该问题中,目标是找到使得制造能力预测子序列误差波动最小的窗口长度,因此状态矩阵选择窗口长度l即可。
S=[l] (5)
步骤3.2:为了使得智能体在寻优过程中遍历到所有的可能状态,因此动作矩阵A设置在上一时刻的状态上进行固定幅度的加减,故设置为:
A=[Δω1,-Δω1] (6)
步骤3.3:由真实值Yt和预测值
Figure BDA0004091446130000093
计算得t时刻第i种单项预测算法的制造能力绝对预测误差:
Figure BDA0004091446130000094
其中t=1,2,...,N,i=1,2,3。
步骤3.4:由式(3)计算K种单项预测算法在t时刻的制造能力平均绝对误差:
Figure BDA0004091446130000101
步骤3.5:根据式(4)计算第k个窗口下锂电池制造能力预测数据的平均绝对误差时刻的制造能力平均绝对误差:
Figure BDA0004091446130000102
并对平均绝对误差进行归一化:
Figure BDA0004091446130000103
步骤3.6:根据式(6)计算该窗口下的制造能力预测数据的熵值:
Figure BDA0004091446130000104
步骤3.7:引入式(7)设置损失函数L和奖惩函数R,损失函数L设置为:
Figure BDA0004091446130000105
为了探索到使得熵值最小的状态值,本申请将奖惩函数R设置为:
当Ll+1<Ll
R=1+Lt-Lt+1 (12)
当Ll+1>Ll
R=-1+Lt-Lt+1 (14)
步骤3.8:构建强化学习过程,得到最优滑动窗口长度。
通过运行实例一代码,确定最优滑动窗口长度为5。
为验证本实例所提强化学习-熵算法的有效性,计算不同滑动窗口长度下运用变权重组合预测算法的均方根误差进行对比。参见图3,当滑动窗口长度为5时,预测结果的均方根误差最小,验证了本申请设计的强化学习-熵算法确定滑动窗口长度的有效性和精确性,同时避免了以往确定窗口长度时枚举法带来的计算量。
本实施例构建强化学习-熵算法参数设置如表3所示:
表3:强化学习-熵算法参数
Figure BDA0004091446130000106
Figure BDA0004091446130000111
步骤4,根据步骤3获得的最优窗口长度l,对单一预测序列
Figure BDA0004091446130000112
和真实值序列Yt进行窗口划分,以k表示划分后的时间点,同时以k时间为第一个数据的窗口称为第k个窗口;则k时刻的预测结果和真实值分别为:/>
Figure BDA0004091446130000113
Yk
步骤5,根据步骤4划分后的窗口数据,设计第二层强化学习对LSTM和GRU进行组合权重寻优,获得最优组合权重[ωlg];
考虑锂电池制造时间序列数据采集量大、采集频率高,具有周期性和季节性等特点,本申请采用深度学习模型LSTM和GRU以及基于统计模型的预测方法SARIMA,分别挖掘锂电池生产数据中的非线性和线性特征组成组合预测模型;
首先根据步骤3确定的最优窗口长度,在每一个窗口期内使用强化学习对深度学习模型LSTM和GRU单一预测模型进行最优权重求解,所述方法包括:
步骤5.1:设置目标状态矩阵S,探索目标为得到最优权重组合,因此设置状态矩阵为S=[ωlg],其中ωlg=1。
步骤5.2:设置动作矩阵A=[Δω2,-Δω2],选择动作,对当前状态的ωl进行增减,并得到ωg,构成下一个状态。
步骤5.3:由于企业需要对未来制造能力实现平稳预测,并不希望为了追求某一点的预测精度而导致其他时间点处的误差过大,因此本申请将滑动窗口内数据的均方根误差最小作为探索目标,设置第k个窗口下进行权重寻优的损失函数L:
Figure BDA0004091446130000114
根据损失函数L,将奖惩函数设置为R=1/L。
步骤5.4:根据步骤5.1到步骤5.3构建第二层强化学习寻优过程,直到达到最优迭代次数,此时探索该窗口下LSTM和GRU的最优组合权重,将该权重赋值给窗口内的第一个时间点,根据权重组合相加得到该时间点k处的LSTM和GRU组合预测值
Figure BDA0004091446130000115
/>
Figure BDA0004091446130000116
第二层强化学习确定LSTM和GRU的组合预测权重结果如表4所示:
表4:第二层强化学习最优计算结果
Figure BDA0004091446130000121
由表4可以看出经过第二层强化学习权重寻优后得到的各时间点处的权重值,以及使用组合权重得到的LSTM和GRU算法的组合预测结果(篇幅限制,此处只展示部分点位)。
步骤6,基于LSTM和GRU的最优组合结果
Figure BDA0004091446130000122
与SARIMA预测结果/>
Figure BDA0004091446130000123
共同进行第三层强化学习组合权重寻优。
步骤6.1:设置目标状态矩阵S,探索目标为得到最优权重组合,因此设置状态矩阵为S=[ωnns],其中ωnns=1。
步骤6.2:设置动作矩阵A=[Δω2,-Δω2],选择动作,对当前状态的ωnn进行增减,并得到ωs,构成下一个状态。
步骤6.3:参考步骤5对LSTM和GRU进行组合权重寻优过程所考虑的企业需要对未来制造能力实现平稳预测,并不希望为了追求某一点的预测精度而导致其他时间点处的误差过大,设置损失函数L:
Figure BDA0004091446130000124
根据损失函数L,将奖惩函数设置为R=1/L。
步骤6.4:根据步骤6.1到步骤6.3构建第三层强化学习寻优过程,直到达到最优迭代次数。此时探索该窗口下三种单一预测算法的最优组合权重,将该权重赋值给窗口内的第一个时间点,根据权重组合相加得到该时间点k处最优组合预测值
Figure BDA0004091446130000131
/>
Figure BDA0004091446130000132
第三层强化学习确定组合预测权重结果如表5所示:
表5:第三层强化学习最优权重值结果
Figure BDA0004091446130000133
步骤5和6中的强化学习组合权重寻优过程参数设置如表6所示:
表6:强化学习组合权重寻优参数
Figure BDA0004091446130000134
步骤7,根据步骤3获得的最优窗口长度l滑动窗口向后不断更新数据,重复步骤5和6的寻优过程计算该窗口的最优组合权重,直到最后一个窗口,得到最优组合预测序列
Figure BDA0004091446130000135
为验证本申请方法(后续简称为Triple-RL方法)的预测性能,采用本申请方法与四种现有方法的估计结果做对比,以判断该方法的优劣,四种现有方法分别为长短时记忆网络方法(后续简称为LSTM方法),门控循环单元(后续简称为GRU方法),基于强化学习的长短是记忆网络和门控循环单元组合预测方法(后续简称为RL-LSTM-GRU方法),基于长短时记忆网络方法和门控循环单元以及季节性差分自回归滑动平均模型的定权重组合模型预测方法(后续简称为LSTM-GRU-SARIMA方法)。
实验过程中,采用浙江天能电池股份有限公司18650型电池生产车间的生产数据进行工程验证,该车间以小时为单位统计生产合格电池的数量,每天产生24个观测值,本申请采集连续300天的历史数据,合计7200个数据点作为数据样本,选取其中前85%作为训练集样本,后15%作为测试集样本。
图4展示了5种不同算法预测未来72个时间点位的预测结果。菱形虚线表示制造能力真实值,星形虚线表示RL-LSTM-GRU算法的制造能力预测值,六角形虚线表示LSTM算法的制造能力预测值,圆形虚线表示GRU算法的制造能力预测值,×虚线表示LSTM-GRU-SARIMA算法的制造能力预测值,+虚线表示Triple-RL算法的制造能力预测值。
图5-图8分别展示了本申请方法Triple-RL与LSTM、GRU、RL-LSTM-GRU、LSTM-GRU-SARIMA四种对比算法的误差对比结果。圆点标志为本申请方法Triple-RL算法在预测点位时的误差百分比,而菱形标志为各对比算法在预测点位时的误差百分比。分析发现在大部分时间下,本申请方法所提时变权重组合预测算法的预测误差都小于对比算法预测精度总体得到显著提高在个别点处误差稍大于对比算法,这是由于在强化学习寻优过程中,奖惩函数设置的是各窗口内的均方根误差,目的是使得预测结果整体更精确,因此会牺牲个别点处的精确效果,但总体误差下降,预测精度提高。
不同预测方法下的电池制造能力预测误差对比如表7所示:
表7:不同预测方法下的电池制造能力预测误差对比
Figure BDA0004091446130000141
通过分析表7,本申请方法与单一预测模型LSTM相比,均方根误差由86.2824降低至40.2137,降幅达到53%,平均绝对误差和平均绝对百分比误差分别由71.8703和0.00622降低至28.4285和0.00245,降幅达到60%。
本申请在深度学习时间序列组合预测的基础上,加入SARIMA算法进一步挖掘时间序列的线性特征,与RL-LSTM-GRU算法相比,本申请所提算法均方根误差从73.8737降低至40.2137,降幅达45%,平均绝对误差和平均绝对百分比误差分别从57.892和0.00501降低至28.4285和0.00245,降幅达52%。
与定权重组合预测相比,本申请引入滑动窗口和强化学习实现变权重组合预测,均方根误差从65.8867降低至40.2137,降幅达38%,平均绝对误差和平均绝对百分比误差分别从53.9252和0.00466降至28.4285和0.00245,降幅达47%。证明本发明提出的电池制造能力预测算法的有效性和优越性。
本发明实施例中的部分步骤,可以利用软件实现,相应的软件程序可以存储在可读取的存储介质中,如光盘或硬盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于三重强化学习的电池制造能力可变权组合预测方法,其特征在于,所述方法包括:
步骤S1,基于LSTM、GRU和SARIMA单一预测模型构建组合预测模型,并根据t时刻前的历史生产数据,分别利用LSTM、GRU和SARIMA单一预测模型获得t时刻的预测结果
Figure FDA0004091446120000011
步骤S2,根据步骤S1中各单一预测模型的预测结果,设计强化学习-熵算法确定滑动窗口长度,获得最优滑动窗口长度l;
步骤S3,根据步骤S2中获得的最优窗口长度l,对单一预测序列
Figure FDA0004091446120000012
和真实值序列Yt进行窗口划分,以k表示划分后的时间点,同时以k时间为第一个数据的窗口称为第k个窗口;记k时刻的预测结果和真实值分别为:/>
Figure FDA0004091446120000013
Yk
步骤S4,根据步骤S3划分后的窗口数据,设计第二层强化学习对LSTM预测模型和GRU预测模型进行组合权重寻优,获得最优组合权重[ωlg],并将所述最优组合权重
lg]赋值给窗口内的第一个时间点k,根据权重组合相加得到时间点k处的LSTM和GRU组合预测值
Figure FDA0004091446120000014
步骤S5,根据步骤S4得到的LSTM和GRU的最优组合结果
Figure FDA0004091446120000015
与SARIMA预测结果/>
Figure FDA0004091446120000016
共同进行第三层强化学习组合权重寻优,得到最优组合权重[ωnns],并计算电池制造能力预测值;
步骤S6,滑动窗口向后不断更新数据,同时重复步骤S4和步骤S5对应计算当前窗口的最优组合权重,直到最后一个窗口,得到最优组合预测序列
Figure FDA0004091446120000017
2.根据权利要求1所述的方法,其特征在于,所述步骤S2包括:
步骤S2.1,确定状态矩阵S,状态矩阵选择窗口长度l;
S=[l] (5)
步骤S2.2,将动作矩阵A设置在上一时刻的状态上进行固定幅度的加减:
A=[Δω1,-Δω1] (6)
Δω1表示加减幅度;
步骤S2.3,由真实值Yt和预测值
Figure FDA0004091446120000018
计算得t时刻第i种单项预测算法的制造能力绝对预测误差:
Figure FDA0004091446120000021
其中t=1,2,...,N,i=1,2,3;
步骤S2.4:由式(3)计算K种单项预测算法在t时刻的制造能力平均绝对误差:
Figure FDA0004091446120000022
步骤S2.5,根据式(4)计算第k个窗口下锂电池制造能力预测数据的平均绝对误差时刻的制造能力平均绝对误差:
Figure FDA0004091446120000023
并对平均绝对误差进行归一化:
Figure FDA0004091446120000024
步骤S2.6,根据式(6)计算该窗口下的制造能力预测数据的熵值:
Figure FDA0004091446120000025
步骤S2.7,引入式(7)设置损失函数L和奖惩函数R,损失函数L设置为:
Figure FDA0004091446120000026
当Ll+1<Ll时,奖惩函数R设置为:
R=1+Lt-Lt+1 (13)
当Ll+1>Ll时,奖惩函数R设置为:
R=-1+Lt-Lt+1 (14)
步骤S2.8,构建强化学习过程,得到最优滑动窗口长度。
3.根据权利要求2所述的方法,其特征在于,所述步骤S4包括:
步骤S4.1,针对LSTM和GRU组合权重寻优问题,设置目标状态矩阵S=[ωlg],其中ωlg=1;
步骤S4.2,设置动作矩阵A=[Δω2,-Δω2],选择动作,对当前状态的ωl进行增减,并得到ωg,构成下一个状态,Δω2表示加减幅度;
步骤S4.3,将滑动窗口内数据的均方根误差最小作为探索目标,设置第k个窗口下进行权重寻优的损失函数L:
Figure FDA0004091446120000031
根据损失函数L,将奖惩函数设置为R=1/L;
步骤S4.4,根据步骤S4.1到步骤S4.3构建第二层强化学习寻优过程,直到达到最优迭代次数,此时探索当前窗口下LSTM和GRU的最优组合权重,将该权重赋值给窗口内的第一个时间点,根据权重组合相加得到该时间点k处的LSTM和GRU组合预测值
Figure FDA0004091446120000032
Figure FDA0004091446120000033
其中,根据公式(16)得到时间点k处的LSTM和GRU组合预测值
Figure FDA0004091446120000034
时,ωl和ωg为当前窗口下LSTM和GRU的最优组合权重值。
4.根据权利要求3所述的方法,其特征在于,所述步骤S5包括:
步骤S5.1,针对基于LSTM和GRU的最优组合结果
Figure FDA0004091446120000035
与SARIMA预测结果/>
Figure FDA0004091446120000036
共同进行组合权重寻优问题,设定目标状态矩阵S=[ωnns],其中ωnns=1;
步骤S5.2,设置动作矩阵A=[Δω2,-Δω2],选择动作,对当前状态的ωnn进行增减,并得到ωs,构成下一个状态;
步骤S5.3,设置损失函数L:
Figure FDA0004091446120000037
根据损失函数L,将奖惩函数设置为R=1/L;
步骤S5.4,根据步骤S5.1到步骤S5.3构建第三层强化学习寻优过程,直到达到最优迭代次数;此时探索当前窗口下三种单一预测模型的最优组合权重,将该权重赋值给窗口内的第一个时间点,根据权重组合相加得到该时间点k处最优组合预测值
Figure FDA0004091446120000038
Figure FDA0004091446120000039
其中,根据公式(18)得到时间点k处最优组合预测值
Figure FDA00040914461200000310
时,ωnn和ωs为当前窗口下三种单一预测模型的最优组合权重值。
5.根据权利要求4所述的方法,其特征在于,所述步骤S6滑动窗口向后不断更新数据时,根据步骤S2中获得的最优窗口长度l滑动。
6.根据权利要求5所述的方法,其特征在于,所述步骤S1中t时刻前的历史生产数据为在相等间隔的时间段内按照预定的采样频率采集到的生产制造数据。
7.根据权利要求6所述的方法,其特征在于,所述步骤S1中t时刻前的历史生产数据为t时刻前1年时间内每间隔1小时采集的生产制造数据。
8.根据权利要求6所述的方法,其特征在于,所述组合预测模型中,所述LSTM和GRU模型参数包括训练轮数、初始学习率、学习率衰减轮数、学习率衰减速度和隐含层节点数;所述SARIMA模型参数包括趋势的自回归阶数、非季节性差分数、趋势的移动平均阶数、季节性自回归阶数、季节性差分数和季节性移动平均阶数。
9.根据权利要求7所述的方法,其特征在于,所述步骤S4中第二层强化学习对LSTM预测模型和GRU预测模型进行组合权重寻优时加减幅度Δω1=1。
10.根据权利要求8所述的方法,其特征在于,所述步骤S5中第三层强化学习组合权重寻优时加减幅度Δω2=0.001。
CN202310153214.1A 2023-02-22 2023-02-22 基于三重强化学习的电池制造能力可变权组合预测方法 Pending CN116151451A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310153214.1A CN116151451A (zh) 2023-02-22 2023-02-22 基于三重强化学习的电池制造能力可变权组合预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310153214.1A CN116151451A (zh) 2023-02-22 2023-02-22 基于三重强化学习的电池制造能力可变权组合预测方法

Publications (1)

Publication Number Publication Date
CN116151451A true CN116151451A (zh) 2023-05-23

Family

ID=86361535

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310153214.1A Pending CN116151451A (zh) 2023-02-22 2023-02-22 基于三重强化学习的电池制造能力可变权组合预测方法

Country Status (1)

Country Link
CN (1) CN116151451A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116341770A (zh) * 2023-05-30 2023-06-27 无锡兴达泡塑新材料股份有限公司 基于聚苯乙烯生产数据的生产能力预测方法及系统
CN116362418A (zh) * 2023-05-29 2023-06-30 天能电池集团股份有限公司 一种高端电池智能工厂应用级制造能力在线预测方法
CN117371622A (zh) * 2023-12-06 2024-01-09 国网湖北省电力有限公司经济技术研究院 一种区域中长期动态碳排放因子的预测方法、系统及设备

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116362418A (zh) * 2023-05-29 2023-06-30 天能电池集团股份有限公司 一种高端电池智能工厂应用级制造能力在线预测方法
CN116362418B (zh) * 2023-05-29 2023-08-22 天能电池集团股份有限公司 一种高端电池智能工厂应用级制造能力在线预测方法
CN116341770A (zh) * 2023-05-30 2023-06-27 无锡兴达泡塑新材料股份有限公司 基于聚苯乙烯生产数据的生产能力预测方法及系统
CN116341770B (zh) * 2023-05-30 2023-07-21 无锡兴达泡塑新材料股份有限公司 基于聚苯乙烯生产数据的生产能力预测方法及系统
CN117371622A (zh) * 2023-12-06 2024-01-09 国网湖北省电力有限公司经济技术研究院 一种区域中长期动态碳排放因子的预测方法、系统及设备

Similar Documents

Publication Publication Date Title
CN116151451A (zh) 基于三重强化学习的电池制造能力可变权组合预测方法
CN108846517B (zh) 一种分位数概率性短期电力负荷预测集成方法
CN112487702B (zh) 一种锂离子电池剩余使用寿命预测方法
CN110544011B (zh) 一种智能化的体系作战效能评估和优化方法
CN107730003A (zh) 一种支持多电器类型高精度的nilm实现方法
CN111027732B (zh) 一种多风电场出力场景的生成方法及系统
CN108446794A (zh) 一种基于多个卷积神经网络结合架构深度学习预测方法
CN112884236B (zh) 一种基于vdm分解与lstm改进的短期负荷预测方法及系统
WO2015145978A1 (ja) エネルギー量推定装置、エネルギー量推定方法、及び、記録媒体
CN112364560A (zh) 矿山凿岩装备作业工时智能预测方法
CN114330834A (zh) 一种基于自更新三次指数平滑法的充电桩用电量预测方法
CN111859249A (zh) 一种基于解析四维集合变分的海洋数值预报方法
CN116187835A (zh) 一种基于数据驱动的台区理论线损区间估算方法及系统
CN113836823A (zh) 一种基于负荷分解和优化双向长短期记忆网络的负荷组合预测方法
CN114578087B (zh) 基于非支配排序和随机模拟算法的风速不确定性度量方法
CN114418234A (zh) 一种基于强化学习的动力电池制造能力在线预测方法
AU2021106200A4 (en) Wind power probability prediction method based on quantile regression
CN114819178A (zh) 一种铁路施工进度指标预测和在线更新方法
Gorbatiuk et al. Application of fuzzy time series forecasting approach for predicting an enterprise net income level
CN115796327A (zh) 一种基于vmd和iwoa-f-gru模型的风电功率区间预测方法
CN110991660A (zh) 基于蝗虫优化的lssvm-arima模型的态势分析方法、系统和存储介质
CN115577872A (zh) 基于多能智能体深度强化学习的结构化数据预测优化方法
CN113255207A (zh) 基于迭代多输出-马尔科夫链的空分系统氩馏分变量多步预测方法
CN115983458A (zh) 基于灰色bp神经网络的电力碳排放峰值预测方法及系统
CN114282330A (zh) 基于分支双重深度q网络的配网实时动态重构方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination