CN116151451A - 基于三重强化学习的电池制造能力可变权组合预测方法 - Google Patents
基于三重强化学习的电池制造能力可变权组合预测方法 Download PDFInfo
- Publication number
- CN116151451A CN116151451A CN202310153214.1A CN202310153214A CN116151451A CN 116151451 A CN116151451 A CN 116151451A CN 202310153214 A CN202310153214 A CN 202310153214A CN 116151451 A CN116151451 A CN 116151451A
- Authority
- CN
- China
- Prior art keywords
- prediction
- optimal
- window
- reinforcement learning
- weight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 93
- 238000004519 manufacturing process Methods 0.000 title claims abstract description 91
- 230000002787 reinforcement Effects 0.000 title claims abstract description 80
- 239000011159 matrix material Substances 0.000 claims abstract description 27
- WHXSMMKQMYFTQS-UHFFFAOYSA-N Lithium Chemical compound [Li] WHXSMMKQMYFTQS-UHFFFAOYSA-N 0.000 claims abstract description 13
- 229910052744 lithium Inorganic materials 0.000 claims abstract description 13
- 230000006870 function Effects 0.000 claims description 34
- 241000728173 Sarima Species 0.000 claims description 25
- 230000008569 process Effects 0.000 claims description 21
- 238000005457 optimization Methods 0.000 claims description 18
- 230000009471 action Effects 0.000 claims description 15
- 230000001932 seasonal effect Effects 0.000 claims description 14
- 230000003247 decreasing effect Effects 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 3
- 238000011160 research Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 230000015654 memory Effects 0.000 description 5
- 230000009467 reduction Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000006403 short-term memory Effects 0.000 description 4
- 230000007787 long-term memory Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 229910003460 diamond Inorganic materials 0.000 description 2
- 239000010432 diamond Substances 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000008358 core component Substances 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/04—Manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- General Business, Economics & Management (AREA)
- Mathematical Physics (AREA)
- Marketing (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Tourism & Hospitality (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Development Economics (AREA)
- Primary Health Care (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Manufacturing & Machinery (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了基于三重强化学习的电池制造能力可变权组合预测方法,属于动力电池制造预测领域。该方法针对锂电池制造能力周期性、突变性以及季节性等特征,选择相应模型分别挖掘时间序列中的线性和非线性特征构成新的组合预测模型;针对现有方法难以得到最优组合预测权重的问题,设计了双层强化学习算法求解该时间下最优权重矩阵,降低预测误差;此外,由于在不同时间点各单一预测模型的预测效果也不同,本申请融合强化学习和熵值思想,探索最优滑动窗口长度,运用滑动窗口对预测序列进行划分,并在各窗口内使用双层强化学习算法确定最优组合权重,最终构造三重强化学习电池制造能力组合预测模型,进一步提高了电池制造能力的预测精度和可靠性。
Description
技术领域
本发明涉及基于三重强化学习的电池制造能力可变权组合预测方法,属于动力电池制造预测领域。
背景技术
近年来,锂电池作为新能源汽车核心部件,其产品的高品质制造领域的研究取得了越来越多的关注。当前的研究领域,研究成果主要集中在对电池产品质量的分析,例如电量监测和电池健康状态估计等领域。但事实上,准确掌握未来一段时间内的电池制造能力,对于电池生产企业合理安排生产计划和制定市场战略规划都有非常重要的意义。然而,当前这一领域的研究成果相对匮乏。
电池的制造能力可以描述为单位时间内生产合格电池的数量,由于电池的制造能力数据是按照制造时间顺序排列而成的数列,是在相等间隔的时间段内按照确定的采样频率得到的数据结果,可见电池的制造能力数据具有一定的规律性。因此,对锂电池制造能力的预测本质上是一类时间序列预测问题。
在实际工程中,锂电池的制造能力通常受单位时间内机器的工作情况以及工作人员排班情况等生产因素和电池订单量及交付时间等市场因素的影响,因此现有技术中使用单一的预测方法并不能完整的挖掘出锂电池制造能力的时间序列特征。因此出现了组合模型预测方法,但这类方法则又会涉及到各模型权重的问题,是否获得最优权重系数会直接导致其预测结果的精准性,因此需要考虑最优权重系数的问题如何解决。
在现有的时变权重选择策略研究成果中,设置滑动窗口是实现时变权重的一种常规方式,选择合适的窗口长度对于预测精度有很大的影响,在以往的研究中,对于窗口长度的选择往往通过观察法或者经验法,通常难以获得最优的滑动窗口长度;相对来说,熵值法可以解决最优滑动窗口长度的问题,但其对算力要求较大,不适合实际应用。
此外传统的组合模型权重确定方法包括层次分析法和自适应权重法等,然而,这类方法往往难以获得最优权重系数,导致预测精度并不能达到最优。
发明内容
为了实现电池制造能力的准确预测,帮助企业合理安排生产计划和制定市场战略规划,提高经济效益。本发明提供了一种基于三重强化学习的电池制造能力可变权组合预测方法,所述方法在进行电池制造能力预测时,首先定义了新的组合预测形式,其次引入滑动窗口并设计第一重强化学习:强化学习-熵算法确定最优窗口长度,最后为了将单一算法的性能充分融合,在每个窗口下设计双层强化学习算法对单一预测结果进行最优权重探索,并将得到的权重进行组合相加得到该时间点下的最优预测值,继续滑动窗口直到对整个预测序列实现最优赋权,实现了电池制造能力可变权组合预测。
一种基于三重强化学习的电池制造能力可变权组合预测方法,所述方法包括:
步骤S2,根据步骤S1中各单一预测模型的预测结果,设计强化学习-熵算法确定滑动窗口长度,获得最优滑动窗口长度l;
步骤S3,根据步骤S2中获得的最优窗口长度l,对单一预测序列和真实值序列Yt进行窗口划分,以k表示划分后的时间点,同时以k时间为第一个数据的窗口称为第k个窗口;记k时刻的预测结果和真实值分别为:/>Yk;
步骤S4,根据步骤S3划分后的窗口数据,设计第二层强化学习对LSTM预测模型和GRU预测模型进行组合权重寻优,获得最优组合权重[ωl,ωg],并将所述最优组合权重[ωl,ωg]赋值给窗口内的第一个时间点k,根据权重组合相加得到时间点k处的LSTM和GRU组合预测值
可选的,所述步骤S2包括:
步骤S2.1,确定状态矩阵S,状态矩阵选择窗口长度l;
S=[l] (5)
步骤S2.2,将动作矩阵A设置在上一时刻的状态上进行固定幅度的加减:
A=[Δω1,-Δω1] (6)
Δω1表示加减幅度;
其中t=1,2,...,N,i=1,2,3;
步骤S2.4:由式(3)计算K种单项预测算法在t时刻的制造能力平均绝对误差:
步骤S2.5,根据式(4)计算第k个窗口下锂电池制造能力预测数据的平均绝对误差时刻的制造能力平均绝对误差:
并对平均绝对误差进行归一化:
步骤S2.6,根据式(6)计算该窗口下的制造能力预测数据的熵值:
步骤S2.7,引入式(7)设置损失函数L和奖惩函数R,损失函数L设置为:
当Ll+1<Ll时,奖惩函数R设置为:
R=1+Lt-Lt+1 (13)
当Ll+1>Ll时,奖惩函数R设置为:
R=-1+Lt-Lt+1 (14)
步骤S2.8,构建强化学习过程,得到最优滑动窗口长度。
可选的,所述步骤S4包括:
步骤S4.1,针对LSTM和GRU组合权重寻优问题,设置目标状态矩阵S=[ωl,ωg],其中ωl+ωg=1;
步骤S4.2,设置动作矩阵A=[Δω2,-Δω2],选择动作,对当前状态的ωl进行增减,并得到ωg,构成下一个状态,Δω2表示加减幅度;
步骤S4.3,将滑动窗口内数据的均方根误差最小作为探索目标,设置第k个窗口下进行权重寻优的损失函数L:
根据损失函数L,将奖惩函数设置为R=1/L;
步骤S4.4,根据步骤S4.1到步骤S4.3构建第二层强化学习寻优过程,直到达到最优迭代次数,此时探索当前窗口下LSTM和GRU的最优组合权重,将该权重赋值给窗口内的第一个时间点,根据权重组合相加得到该时间点k处的LSTM和GRU组合预测值
可选的,所述步骤S5包括:
步骤S5.2,设置动作矩阵A=[Δω2,-Δω2],选择动作,对当前状态的ωnn进行增减,并得到ωs,构成下一个状态;
步骤S5.3,设置损失函数L:
根据损失函数L,将奖惩函数设置为R=1/L;
步骤S5.4,根据步骤S5.1到步骤S5.3构建第三层强化学习寻优过程,直到达到最优迭代次数;此时探索当前窗口下三种单一预测模型的最优组合权重,将该权重赋值给窗口内的第一个时间点,根据权重组合相加得到该时间点k处最优组合预测值
可选的,所述步骤S6滑动窗口向后不断更新数据时,根据步骤S2中获得的最优窗口长度l滑动。
可选的,所述步骤S1中t时刻前的历史生产数据为在相等间隔的时间段内按照预定的采样频率采集到的生产制造数据。
可选的,所述步骤S1中t时刻前的历史生产数据为t时刻前1年时间内每间隔1小时采集的生产制造数据。
可选的,所述组合预测模型中,所述LSTM和GRU模型参数包括训练轮数、初始学习率、学习率衰减轮数、学习率衰减速度和隐含层节点数;所述SARIMA模型参数包括趋势的自回归阶数、非季节性差分数、趋势的移动平均阶数、季节性自回归阶数、季节性差分数和季节性移动平均阶数。
可选的,所述步骤S4中第二层强化学习对LSTM预测模型和GRU预测模型进行组合权重寻优时加减幅度Δω1=1。
可选的,所述步骤S5中第三层强化学习组合权重寻优时加减幅度Δω2=0.001。
本发明有益效果是:
针对锂电池制造能力具有周期性、突变性以及季节性等特征,本申请选择符合预测对象特征的预测算法分别挖掘时间序列中的线性和非线性特征构成新的组合预测算法,其次相对于传统权重确定方法,难以得到最优组合预测权重,本申请设计双层强化学习算法求解该时间下最优权重矩阵,降低预测误差;此外,由于在不同时间点各单一预测算法的预测效果也不同,本申请融合强化学习和熵值思想,探索最优滑动窗口长度,运用滑动窗口对预测序列进行划分,并在各窗口内使用双层强化学习算法确定最优组合权重,最终构造三重强化学习电池制造能力组合预测模型,相较于传统定权重组合预测更能利用各单一预测算法的特征,融合各自优势,进一步提高了针对电池制造能力预测的预测精度和可靠性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例中公开的一种三重强化学习组合预测模型图。
图2是本发明一个实施例中公开的一种强化学习-熵确定滑动窗口长度的原理图。
图3是本发明一个实施例中公开的使用不同窗口长度的预测精度对比图。
图4是本发明一个实施例中公开的锂电池制造能力预测结果对比图。
图5是本发明一个实施例中公开的三重强化学习算法和长短时记忆网络预测误差对比图。
图6是本发明一个实施例中公开的三重强化学习算法和门控循环单元预测误差对比图。
图7是本发明一个实施例中公开的三重强化学习算法和强化学习-长短时记忆网络-门控循环单元预测误差对比图。
图8是本发明一个实施例中公开的三重强化学习算法和固定权重组合预测误差对比图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
实施例一:
本实施例提供一种基于三重强化学习的电池制造能力可变权组合预测方法,参见图1,所述方法基于历史生产数据,针对未来一段时间的生产能力进行预测,所述方法包括:
步骤一:针对锂电池制造能力序列特点,选取长短时记忆网络(Long Short-TermMemory,LSTM)、门控循环单元(Gated Recurrent Unit,GRU)和季节性差分自回归滑动平均模型(Seasonal Autoregressive Integrated Moving Average Model,SARIMA)作为单项预测模型构成组合预测模型,基于历史生产数据,分别得到各单项预测模型t时刻的预测结果: 其中,上标l、g和s分别代表LSTM预测模型、GRU预测模型和SARIMA预测模型;历史生产数据为t时刻之前一段时间的生产制造能力,可在相等间隔的时间段内按照确定的采样频率采集生产制造数据。
步骤二:根据步骤一的单一预测结果,设计强化学习-熵算法确定滑动窗口长度,获得最优滑动窗口长度l;
步骤四:根据步骤三划分后的窗口数据,设计第二层强化学习对LSTM预测模型和GRU预测模型进行组合权重寻优,获得最优组合权重[ωl,ωg];
该方法中,第一层强化学习时,设计强化学习-熵算法确定滑动窗口长度,目标是找到使得制造能力预测子序列误差波动最小的窗口长度;保证滑动窗口长度最优的同时避免了以往确定窗口长度时枚举法带来的计算量;在第二层强化学习对LSTM预测模型和GRU预测模型进行组合权重寻优用于挖掘时间序列中的线性特征;在第三层强化学习时,基于LSTM和GRU的最优组合结果,再与用于挖掘时间序列中的非线性特征的SARIMA预测模型的预测结果共同进行第三层强化学习组合权重寻优。上述方法中,将对三模型权重寻优的过程分别在第二层强化学习和第三层强化学习中实现,避免了同时寻优将目标状态矩阵设置为S=[wl,wg,ws]导致的状态过多、智能体无法完全探索、出现状态过载和维数灾难,从而导致无法探索到最优结果的情况发生。
实施例二:
本实施例提供一种基于三重强化学习的电池制造能力可变权组合预测方法,该方法基于一种新型预测算法组合模型,针对具有周期性、突变性等特征的电池制造能力数据,选取LSTM、GRU和SARIMA作为单一预测模型构成新型组合预测模型,根据各单一预测模型的预测结果设计第一层强化学习,即强化学习-熵算法确定滑动窗口长度,获得最优滑动窗口长度l;确定最优滑动窗口长度l后,对单一预测序列和真实值序列Yt进行窗口划分,根据划分后的窗口数据,设计第二层强化学习对LSTM和GRU进行组合权重寻优,获得最优组合权重[ωl,ωg],再根据最优组合权重[ωl,ωg]得到LSTM和GRU的预测结果,结合SARIMA预测结果/>共同设计第三层强化学习组合权重寻优,得到最优组合权重[ωnn,ωs],并计算最优组合权重[ωnn,ωs]下电池制造能力预测值;滑动窗口更新数据,重复第二层强化学习和第三层强化学习,直至最后一个窗口,得到最优组合预测序列/>所述方法包括:
步骤1,选取LSTM、GRU和SARIMA作为单一预测模型构成新型组合预测模型;
所述组合预测模型中,LSTM模型在t时刻有三个输入,其中Ct-1为t-1时刻的长期记忆信息,ht-1为t-1时刻的短期记忆信息,xt为t时刻输入样本,输出门it、遗忘门ft和输出门ot的求解方法如式(1)所示:
其中,σ为Sigmoid激活函数,w和b分别为对应门的权重矩阵和偏置向量。进而,可以获得短期记忆信息ht,长期记忆信息Ct以及模型输出结果yt,计算方法如式(2)所示:
GRU模型的模型输入为t-1时刻的记忆信息ht-1和t时刻的输入变量xt,对应的输入输出关系如式(3)所示:
其中xt是t时刻输入样本,rt和zt分别是重置门和更新门在t时刻的输出变量。
LSTM和GRU模型参数定义如下表1:
表1:LSTM和GRU模型参数
SARIMA(p,d,q)(P,D,Q)S模型有7个参数构成,其中p和q分别表示自回归和移动平均的阶数;d和D分别为趋势差分和季节差分的阶数;P和Q分别表示季节性自回归和季节性移动平均的阶数;S为季节周期数。SARIMA的一般表达式如式(4):
φ(B)Φ(BS)(1-B)d(1-BS)Dyt=c+θ(B)Θ(BS)εt (4)
其中,B为延迟算子,即Byt=yt-1,Φ(B)和Θ(B)分别为B的p阶和q阶特征多项式,φ(B)为自回归过程,θ(B)为移动平均过程,yt为输入序列,εt为白噪声。
SARIMA模型参数如表2:
表2:SARIMA模型参数
其中,上标l、g和s分别代表LSTM预测模型、GRU预测模型和SARIMA预测模型;历史生产数据为t时刻之前一段时间的生产制造能力,可在相等间隔的时间段内按照确定的采样频率采集生产制造数据。
步骤3,根据各单项预测模型的预测结果,设计第一层强化学习:强化学习-熵算法确定滑动窗口长度,获得最优滑动窗口长度l;
参见图2,确定最优滑动窗口长度l过程包括:
步骤3.1:确定状态矩阵S,在该问题中,目标是找到使得制造能力预测子序列误差波动最小的窗口长度,因此状态矩阵选择窗口长度l即可。
S=[l] (5)
步骤3.2:为了使得智能体在寻优过程中遍历到所有的可能状态,因此动作矩阵A设置在上一时刻的状态上进行固定幅度的加减,故设置为:
A=[Δω1,-Δω1] (6)
其中t=1,2,...,N,i=1,2,3。
步骤3.4:由式(3)计算K种单项预测算法在t时刻的制造能力平均绝对误差:
步骤3.5:根据式(4)计算第k个窗口下锂电池制造能力预测数据的平均绝对误差时刻的制造能力平均绝对误差:
并对平均绝对误差进行归一化:
步骤3.6:根据式(6)计算该窗口下的制造能力预测数据的熵值:
步骤3.7:引入式(7)设置损失函数L和奖惩函数R,损失函数L设置为:
为了探索到使得熵值最小的状态值,本申请将奖惩函数R设置为:
当Ll+1<Ll时
R=1+Lt-Lt+1 (12)
当Ll+1>Ll时
R=-1+Lt-Lt+1 (14)
步骤3.8:构建强化学习过程,得到最优滑动窗口长度。
通过运行实例一代码,确定最优滑动窗口长度为5。
为验证本实例所提强化学习-熵算法的有效性,计算不同滑动窗口长度下运用变权重组合预测算法的均方根误差进行对比。参见图3,当滑动窗口长度为5时,预测结果的均方根误差最小,验证了本申请设计的强化学习-熵算法确定滑动窗口长度的有效性和精确性,同时避免了以往确定窗口长度时枚举法带来的计算量。
本实施例构建强化学习-熵算法参数设置如表3所示:
表3:强化学习-熵算法参数
步骤5,根据步骤4划分后的窗口数据,设计第二层强化学习对LSTM和GRU进行组合权重寻优,获得最优组合权重[ωl,ωg];
考虑锂电池制造时间序列数据采集量大、采集频率高,具有周期性和季节性等特点,本申请采用深度学习模型LSTM和GRU以及基于统计模型的预测方法SARIMA,分别挖掘锂电池生产数据中的非线性和线性特征组成组合预测模型;
首先根据步骤3确定的最优窗口长度,在每一个窗口期内使用强化学习对深度学习模型LSTM和GRU单一预测模型进行最优权重求解,所述方法包括:
步骤5.1:设置目标状态矩阵S,探索目标为得到最优权重组合,因此设置状态矩阵为S=[ωl,ωg],其中ωl+ωg=1。
步骤5.2:设置动作矩阵A=[Δω2,-Δω2],选择动作,对当前状态的ωl进行增减,并得到ωg,构成下一个状态。
步骤5.3:由于企业需要对未来制造能力实现平稳预测,并不希望为了追求某一点的预测精度而导致其他时间点处的误差过大,因此本申请将滑动窗口内数据的均方根误差最小作为探索目标,设置第k个窗口下进行权重寻优的损失函数L:
根据损失函数L,将奖惩函数设置为R=1/L。
步骤5.4:根据步骤5.1到步骤5.3构建第二层强化学习寻优过程,直到达到最优迭代次数,此时探索该窗口下LSTM和GRU的最优组合权重,将该权重赋值给窗口内的第一个时间点,根据权重组合相加得到该时间点k处的LSTM和GRU组合预测值/>
第二层强化学习确定LSTM和GRU的组合预测权重结果如表4所示:
表4:第二层强化学习最优计算结果
由表4可以看出经过第二层强化学习权重寻优后得到的各时间点处的权重值,以及使用组合权重得到的LSTM和GRU算法的组合预测结果(篇幅限制,此处只展示部分点位)。
步骤6.1:设置目标状态矩阵S,探索目标为得到最优权重组合,因此设置状态矩阵为S=[ωnn,ωs],其中ωnn+ωs=1。
步骤6.2:设置动作矩阵A=[Δω2,-Δω2],选择动作,对当前状态的ωnn进行增减,并得到ωs,构成下一个状态。
步骤6.3:参考步骤5对LSTM和GRU进行组合权重寻优过程所考虑的企业需要对未来制造能力实现平稳预测,并不希望为了追求某一点的预测精度而导致其他时间点处的误差过大,设置损失函数L:
根据损失函数L,将奖惩函数设置为R=1/L。
步骤6.4:根据步骤6.1到步骤6.3构建第三层强化学习寻优过程,直到达到最优迭代次数。此时探索该窗口下三种单一预测算法的最优组合权重,将该权重赋值给窗口内的第一个时间点,根据权重组合相加得到该时间点k处最优组合预测值/>
第三层强化学习确定组合预测权重结果如表5所示:
表5:第三层强化学习最优权重值结果
步骤5和6中的强化学习组合权重寻优过程参数设置如表6所示:
表6:强化学习组合权重寻优参数
为验证本申请方法(后续简称为Triple-RL方法)的预测性能,采用本申请方法与四种现有方法的估计结果做对比,以判断该方法的优劣,四种现有方法分别为长短时记忆网络方法(后续简称为LSTM方法),门控循环单元(后续简称为GRU方法),基于强化学习的长短是记忆网络和门控循环单元组合预测方法(后续简称为RL-LSTM-GRU方法),基于长短时记忆网络方法和门控循环单元以及季节性差分自回归滑动平均模型的定权重组合模型预测方法(后续简称为LSTM-GRU-SARIMA方法)。
实验过程中,采用浙江天能电池股份有限公司18650型电池生产车间的生产数据进行工程验证,该车间以小时为单位统计生产合格电池的数量,每天产生24个观测值,本申请采集连续300天的历史数据,合计7200个数据点作为数据样本,选取其中前85%作为训练集样本,后15%作为测试集样本。
图4展示了5种不同算法预测未来72个时间点位的预测结果。菱形虚线表示制造能力真实值,星形虚线表示RL-LSTM-GRU算法的制造能力预测值,六角形虚线表示LSTM算法的制造能力预测值,圆形虚线表示GRU算法的制造能力预测值,×虚线表示LSTM-GRU-SARIMA算法的制造能力预测值,+虚线表示Triple-RL算法的制造能力预测值。
图5-图8分别展示了本申请方法Triple-RL与LSTM、GRU、RL-LSTM-GRU、LSTM-GRU-SARIMA四种对比算法的误差对比结果。圆点标志为本申请方法Triple-RL算法在预测点位时的误差百分比,而菱形标志为各对比算法在预测点位时的误差百分比。分析发现在大部分时间下,本申请方法所提时变权重组合预测算法的预测误差都小于对比算法预测精度总体得到显著提高在个别点处误差稍大于对比算法,这是由于在强化学习寻优过程中,奖惩函数设置的是各窗口内的均方根误差,目的是使得预测结果整体更精确,因此会牺牲个别点处的精确效果,但总体误差下降,预测精度提高。
不同预测方法下的电池制造能力预测误差对比如表7所示:
表7:不同预测方法下的电池制造能力预测误差对比
通过分析表7,本申请方法与单一预测模型LSTM相比,均方根误差由86.2824降低至40.2137,降幅达到53%,平均绝对误差和平均绝对百分比误差分别由71.8703和0.00622降低至28.4285和0.00245,降幅达到60%。
本申请在深度学习时间序列组合预测的基础上,加入SARIMA算法进一步挖掘时间序列的线性特征,与RL-LSTM-GRU算法相比,本申请所提算法均方根误差从73.8737降低至40.2137,降幅达45%,平均绝对误差和平均绝对百分比误差分别从57.892和0.00501降低至28.4285和0.00245,降幅达52%。
与定权重组合预测相比,本申请引入滑动窗口和强化学习实现变权重组合预测,均方根误差从65.8867降低至40.2137,降幅达38%,平均绝对误差和平均绝对百分比误差分别从53.9252和0.00466降至28.4285和0.00245,降幅达47%。证明本发明提出的电池制造能力预测算法的有效性和优越性。
本发明实施例中的部分步骤,可以利用软件实现,相应的软件程序可以存储在可读取的存储介质中,如光盘或硬盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于三重强化学习的电池制造能力可变权组合预测方法,其特征在于,所述方法包括:
步骤S2,根据步骤S1中各单一预测模型的预测结果,设计强化学习-熵算法确定滑动窗口长度,获得最优滑动窗口长度l;
步骤S3,根据步骤S2中获得的最优窗口长度l,对单一预测序列和真实值序列Yt进行窗口划分,以k表示划分后的时间点,同时以k时间为第一个数据的窗口称为第k个窗口;记k时刻的预测结果和真实值分别为:/>Yk;
步骤S4,根据步骤S3划分后的窗口数据,设计第二层强化学习对LSTM预测模型和GRU预测模型进行组合权重寻优,获得最优组合权重[ωl,ωg],并将所述最优组合权重
2.根据权利要求1所述的方法,其特征在于,所述步骤S2包括:
步骤S2.1,确定状态矩阵S,状态矩阵选择窗口长度l;
S=[l] (5)
步骤S2.2,将动作矩阵A设置在上一时刻的状态上进行固定幅度的加减:
A=[Δω1,-Δω1] (6)
Δω1表示加减幅度;
其中t=1,2,...,N,i=1,2,3;
步骤S2.4:由式(3)计算K种单项预测算法在t时刻的制造能力平均绝对误差:
步骤S2.5,根据式(4)计算第k个窗口下锂电池制造能力预测数据的平均绝对误差时刻的制造能力平均绝对误差:
并对平均绝对误差进行归一化:
步骤S2.6,根据式(6)计算该窗口下的制造能力预测数据的熵值:
步骤S2.7,引入式(7)设置损失函数L和奖惩函数R,损失函数L设置为:
当Ll+1<Ll时,奖惩函数R设置为:
R=1+Lt-Lt+1 (13)
当Ll+1>Ll时,奖惩函数R设置为:
R=-1+Lt-Lt+1 (14)
步骤S2.8,构建强化学习过程,得到最优滑动窗口长度。
3.根据权利要求2所述的方法,其特征在于,所述步骤S4包括:
步骤S4.1,针对LSTM和GRU组合权重寻优问题,设置目标状态矩阵S=[ωl,ωg],其中ωl+ωg=1;
步骤S4.2,设置动作矩阵A=[Δω2,-Δω2],选择动作,对当前状态的ωl进行增减,并得到ωg,构成下一个状态,Δω2表示加减幅度;
步骤S4.3,将滑动窗口内数据的均方根误差最小作为探索目标,设置第k个窗口下进行权重寻优的损失函数L:
根据损失函数L,将奖惩函数设置为R=1/L;
步骤S4.4,根据步骤S4.1到步骤S4.3构建第二层强化学习寻优过程,直到达到最优迭代次数,此时探索当前窗口下LSTM和GRU的最优组合权重,将该权重赋值给窗口内的第一个时间点,根据权重组合相加得到该时间点k处的LSTM和GRU组合预测值
4.根据权利要求3所述的方法,其特征在于,所述步骤S5包括:
步骤S5.2,设置动作矩阵A=[Δω2,-Δω2],选择动作,对当前状态的ωnn进行增减,并得到ωs,构成下一个状态;
步骤S5.3,设置损失函数L:
根据损失函数L,将奖惩函数设置为R=1/L;
步骤S5.4,根据步骤S5.1到步骤S5.3构建第三层强化学习寻优过程,直到达到最优迭代次数;此时探索当前窗口下三种单一预测模型的最优组合权重,将该权重赋值给窗口内的第一个时间点,根据权重组合相加得到该时间点k处最优组合预测值
5.根据权利要求4所述的方法,其特征在于,所述步骤S6滑动窗口向后不断更新数据时,根据步骤S2中获得的最优窗口长度l滑动。
6.根据权利要求5所述的方法,其特征在于,所述步骤S1中t时刻前的历史生产数据为在相等间隔的时间段内按照预定的采样频率采集到的生产制造数据。
7.根据权利要求6所述的方法,其特征在于,所述步骤S1中t时刻前的历史生产数据为t时刻前1年时间内每间隔1小时采集的生产制造数据。
8.根据权利要求6所述的方法,其特征在于,所述组合预测模型中,所述LSTM和GRU模型参数包括训练轮数、初始学习率、学习率衰减轮数、学习率衰减速度和隐含层节点数;所述SARIMA模型参数包括趋势的自回归阶数、非季节性差分数、趋势的移动平均阶数、季节性自回归阶数、季节性差分数和季节性移动平均阶数。
9.根据权利要求7所述的方法,其特征在于,所述步骤S4中第二层强化学习对LSTM预测模型和GRU预测模型进行组合权重寻优时加减幅度Δω1=1。
10.根据权利要求8所述的方法,其特征在于,所述步骤S5中第三层强化学习组合权重寻优时加减幅度Δω2=0.001。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310153214.1A CN116151451A (zh) | 2023-02-22 | 2023-02-22 | 基于三重强化学习的电池制造能力可变权组合预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310153214.1A CN116151451A (zh) | 2023-02-22 | 2023-02-22 | 基于三重强化学习的电池制造能力可变权组合预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116151451A true CN116151451A (zh) | 2023-05-23 |
Family
ID=86361535
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310153214.1A Pending CN116151451A (zh) | 2023-02-22 | 2023-02-22 | 基于三重强化学习的电池制造能力可变权组合预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116151451A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116341770A (zh) * | 2023-05-30 | 2023-06-27 | 无锡兴达泡塑新材料股份有限公司 | 基于聚苯乙烯生产数据的生产能力预测方法及系统 |
CN116362418A (zh) * | 2023-05-29 | 2023-06-30 | 天能电池集团股份有限公司 | 一种高端电池智能工厂应用级制造能力在线预测方法 |
CN117371622A (zh) * | 2023-12-06 | 2024-01-09 | 国网湖北省电力有限公司经济技术研究院 | 一种区域中长期动态碳排放因子的预测方法、系统及设备 |
-
2023
- 2023-02-22 CN CN202310153214.1A patent/CN116151451A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116362418A (zh) * | 2023-05-29 | 2023-06-30 | 天能电池集团股份有限公司 | 一种高端电池智能工厂应用级制造能力在线预测方法 |
CN116362418B (zh) * | 2023-05-29 | 2023-08-22 | 天能电池集团股份有限公司 | 一种高端电池智能工厂应用级制造能力在线预测方法 |
CN116341770A (zh) * | 2023-05-30 | 2023-06-27 | 无锡兴达泡塑新材料股份有限公司 | 基于聚苯乙烯生产数据的生产能力预测方法及系统 |
CN116341770B (zh) * | 2023-05-30 | 2023-07-21 | 无锡兴达泡塑新材料股份有限公司 | 基于聚苯乙烯生产数据的生产能力预测方法及系统 |
CN117371622A (zh) * | 2023-12-06 | 2024-01-09 | 国网湖北省电力有限公司经济技术研究院 | 一种区域中长期动态碳排放因子的预测方法、系统及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116151451A (zh) | 基于三重强化学习的电池制造能力可变权组合预测方法 | |
CN108846517B (zh) | 一种分位数概率性短期电力负荷预测集成方法 | |
CN112487702B (zh) | 一种锂离子电池剩余使用寿命预测方法 | |
CN110544011B (zh) | 一种智能化的体系作战效能评估和优化方法 | |
CN107730003A (zh) | 一种支持多电器类型高精度的nilm实现方法 | |
CN111027732B (zh) | 一种多风电场出力场景的生成方法及系统 | |
CN108446794A (zh) | 一种基于多个卷积神经网络结合架构深度学习预测方法 | |
CN112884236B (zh) | 一种基于vdm分解与lstm改进的短期负荷预测方法及系统 | |
WO2015145978A1 (ja) | エネルギー量推定装置、エネルギー量推定方法、及び、記録媒体 | |
CN112364560A (zh) | 矿山凿岩装备作业工时智能预测方法 | |
CN114330834A (zh) | 一种基于自更新三次指数平滑法的充电桩用电量预测方法 | |
CN111859249A (zh) | 一种基于解析四维集合变分的海洋数值预报方法 | |
CN116187835A (zh) | 一种基于数据驱动的台区理论线损区间估算方法及系统 | |
CN113836823A (zh) | 一种基于负荷分解和优化双向长短期记忆网络的负荷组合预测方法 | |
CN114578087B (zh) | 基于非支配排序和随机模拟算法的风速不确定性度量方法 | |
CN114418234A (zh) | 一种基于强化学习的动力电池制造能力在线预测方法 | |
AU2021106200A4 (en) | Wind power probability prediction method based on quantile regression | |
CN114819178A (zh) | 一种铁路施工进度指标预测和在线更新方法 | |
Gorbatiuk et al. | Application of fuzzy time series forecasting approach for predicting an enterprise net income level | |
CN115796327A (zh) | 一种基于vmd和iwoa-f-gru模型的风电功率区间预测方法 | |
CN110991660A (zh) | 基于蝗虫优化的lssvm-arima模型的态势分析方法、系统和存储介质 | |
CN115577872A (zh) | 基于多能智能体深度强化学习的结构化数据预测优化方法 | |
CN113255207A (zh) | 基于迭代多输出-马尔科夫链的空分系统氩馏分变量多步预测方法 | |
CN115983458A (zh) | 基于灰色bp神经网络的电力碳排放峰值预测方法及系统 | |
CN114282330A (zh) | 基于分支双重深度q网络的配网实时动态重构方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |