CN112362522B

CN112362522B - 一种基于强化学习的烟叶容重测量方法

Info

Publication number: CN112362522B
Application number: CN202011149673.5A
Authority: CN
Inventors: 林森; 冯海; 菅威; 徐荣华; 章晓白; 孙科雷
Original assignee: China Tobacco Zhejiang Industrial Co Ltd
Current assignee: China Tobacco Zhejiang Industrial Co Ltd
Priority date: 2020-10-23
Filing date: 2020-10-23
Publication date: 2022-08-02
Anticipated expiration: 2040-10-23
Also published as: CN112362522A

Abstract

本发明公开了一种基于强化学习的烟叶容重测量方法，包括：构建基于强化学习的烟叶容重测量模型：以包含烟叶流量、加水量、筒温、热风温度、蒸汽质量流量、出口水分和温度的回潮滚筒的相关参数作为状态数据，采用强化学习算法中的动作网络依据状态数据推算得到烟叶容重测量值，并根据烟叶容重测量值与烟叶容重实际值计算动作奖励值，并依据该动作奖励值构建TD误差，依据TD误差来构建动作网络和强化学习算法中的评价网络的损失函数，依据损失函数优化更新动作网络和评价网络参数，优化结束后，参数确定的动作网络作为烟叶容重测量模型；应用时，烟叶容重测量模型依据实时采集的回潮滚筒的相关参数实时推算输出烟丝容重测量值。

Description

一种基于强化学习的烟叶容重测量方法

技术领域

本发明属于烟叶容重测量领域，具体涉及一种基于强化学习的烟叶容重测量方法。

背景技术

烟叶容重作为一个烟叶指标是跟烟叶的品种息息相关的，不同类型的烟叶容重差别比较大，目前通常采用了静态测量的方法来获取烟叶的容重，如申请公开号为CN101393101A的专利申请公开了一种采用近红外光谱测定烟叶叶面密度的方法。和申请公开号为CN106213570的专利申请公开的一种再造烟叶浓缩液密度的测定方法。但是在连续生产过程中，同一批次产量会混有各种类型的烟叶，造成容重变化的不稳定，因而也无法实时获得完整的容重信息。

发明内容

本发明的目的是提供一种基于强化学习的烟叶容重测量方法，实现烟叶容重的实时测量。

为实现上述发明目的，本发明提供以下技术方案：

一种基于强化学习的烟叶容重测量方法，包括以下步骤：

构建基于强化学习的烟叶容重测量模型，具体过程为：以包含烟叶流量、加水量、筒温、热风温度、蒸汽质量流量、出口水分和温度的回潮滚筒的相关参数作为状态数据，采用强化学习算法中的动作网络依据状态数据推算得到烟叶容重测量值，并根据烟叶容重测量值与烟叶容重实际值计算动作奖励值，并依据该动作奖励值构建TD误差，依据TD误差来构建动作网络和强化学习算法中的评价网络的损失函数，依据损失函数优化更新动作网络和评价网络参数，优化结束后，参数确定的动作网络作为烟叶容重测量模型；

应用时，实时采集回潮滚筒的相关参数，烟叶容重测量模型依据回潮滚筒的相关参数实时推算输出烟丝容重测量值。

与现有技术相比，本发明具有的有益效果至少包括：

本发明提供的基于强化学习的烟叶容重测量方法利用基于强化学习构建的烟叶容重测量模型能够实时准确地测量烟叶容重，为PLD出料控制提供数据基础。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1是本发明实施例提供的基于强化学习的烟叶容重测量方法的流程图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

由于占地少，维护方便等原因，烟草生产行业内，柜式喂料机开始逐渐取代仓储式喂料机。但是柜式喂料机无法采用传统的PID控制来稳定出料流量，因此需要提出一种带预测模型的出料控制方法，该出料控制方法的原理是通过烟叶的其他指标获得动态的烟叶容重变化，再结合烟叶的体积，计算出柜式喂料机出口出的烟叶质量分布，通过调节合适的柜式喂料机出料底带的频率，提高流量的稳定性。

这种带预测模型的出料控制方法最核心的技术就是烟叶容重的测算，因此，实施例提供一种基于强化学习的烟叶容重测量方法，根据烟叶在生产过程中的各项参数指标数据，结合强化学习，动态计算烟叶在回潮出口处的容重变化，获得与实际容重相近的结果。

如图1所示，实施例提供的基于强化学习的烟叶容重测量方法包括以下步骤：

步骤1，基于强化学习构建烟叶容重测量模型。

强化学习算法包含动作网络和评价网络，动作网络和评价网络均采用神经网络，用于基于环境状态数据产生动作策略，评价网络用于评价产生的动作策略的未来回报价值，因此，利用强化学习算法解决问题时，环境状态的选择，动作策略的认定，依据动作赋予的动作奖励值和损失函数的确定都非常重要，直接影响解决问题的效果。

经过研究发现，在烟叶回潮系统中，不同的烟叶类型具有不同的容重，容重的影响在于对水分吸收和温度保持的能力，即便是同样的烟叶流量、加水量、筒温和热风的情况下，其出口水分和温度仍然会出现波动。比如容重特别大的白肋烟，出口温度就明显的低于平均水平。同时，回潮滚筒的烟叶流量、加水量、筒温、热风温度、蒸汽质量流量、出口水分和温度等相关参数均会影响烟叶容重，因此，选择包含烟叶流量、加水量、筒温、热风温度、蒸汽质量流量、出口水分和温度的回潮滚筒的相关参数作为状态数据，该状态数据作为动作网络的输入数据，动作网络采用神经网络，根据状态数据计算输出表示烟叶容重的动作策略概率分布，从动作策略概率分布中选择概率最大值作为烟叶容重测量值。

本实施例中，针对烟叶流量，通过回潮滚筒入口处的皮带秤测量得到烟叶流量；

针对加水量，通过烟叶流量与加水量的映射关系计算得到加水量，并通过水流量计监测和控制加水量；

针对筒温，检测回潮滚筒的冷凝水温度作为筒温，并通过气动薄膜阀控制输入回潮滚筒的蒸汽流量；

针对热风温度，新风通过热交换器转换为热风，利用温度仪检测热风温度，并通过气动薄膜阀控制新风的通入量；

针对出口水分和温度，采用回潮滚筒出口处的水分仪和温度仪检测出口水分和温度。

同时，在烟叶回潮系统，蒸汽直接喷到回潮滚筒内的烟叶上，采集蒸汽体积流量V、蒸汽温度T、蒸汽压力P计算蒸汽密度D和蒸汽质量流量Q：

Q＝D*V。

以上回潮滚筒的相关参数均可以通过OPC从PLC读取得到。

为了减少数据误差影响，所述蒸汽体积流量V、蒸汽温度T、蒸汽压力P以及加水量在被应用于烟叶容重测量模型之前，均需要进行平滑处理，具体平滑处理过程为：

其中，T_a表示扫描周期，T_f表示滤波时间，C₁、C₂、C₃表示巴特沃斯特性系数，D₁、D₂、D₃、E均表示中间计算值，X_e表示输入变量值，为蒸汽体积流量V、蒸汽温度T、蒸汽压力P或加水量，Y_a表示输入变量值对应的输出变量值，K表示迭代次数。

本实施例中，根据烟叶容重测量值与烟叶容重实际值计算动作奖励值，具体地，动作奖励值r(t)表示为：

其中，M_act为烟叶容重实际值，M_tar为烟叶容重测算值，烟叶容重实际值是根据柜式喂料机后端的皮带秤调节速率折算得到，在皮带秤通过烟叶体积保持稳定的情况下，皮带秤的调节速率是跟容重成线性的正比关系即：

M_act＝βu

其中，β为比例系数，u为皮带秤调节速率。

在获得动作奖励值基础上，可以根据动作奖励值构建TD误差，具体地，构建的TD误差δ_TD(t)表示为：

δ_TD(t)＝r(t)+γv_π(t+1)-v_π(t)

其中，r(t)表示动作奖励值，v_π(t)表示评价网络依据t时刻状态数据采取动作策略π得到的回报价值，v_π(t+1)表示评价网络依据t+1时刻状态数据采取动作策略π得到的回报价值，γ为修正因子，表示未来回报价值相对于当前回报价值的重要程度。

在获得TD误差δ_TD(t)的基础上，可以TD误差来构建动作网络和强化学习算法中的评价网络的损失函数，依据损失函数优化更新动作网络和评价网络参数。动作网络的优化目标是优化网络参数使输出回报值高的烟叶容重，损失函数L_π为：

L_π＝-δ_TD(t)logπ_θ(s,a)

其中，δ_TD(t)表示t时刻的TD误差，π_θ(s,a)表示参数为θ的动作网络依据环境状态数据s产生动作a的动作策略；

依据损失函数L_π更新动作网络参数的过程为：

其中，θ^(t)表示t时刻的动作网络参数，θ^(t-1)表示t-1时刻的动作网络参数，α表示学习率，

表示损失函数L_π的梯度。

构建的评价网络的损失函数L_v为：

其中，δ_TD(t)表示t时刻的TD误差；

依据损失函数L_v更新评价网络参数的过程为：

w⁽ⁿ⁾＝w^(n-1)+βΔL_v

其中，β表示学习率，ΔL_v表示损失函数L_v的梯度。

按照上述损失函数L_π和损失函数L_v优化结束后，动作网络参数和评价网络参数均确定，参数确定的动作网络作为烟叶容重测量模型。

步骤2，应用上述烟叶容重测量模型进行烟叶容重的实时测量。

在应用时，实时采集回潮滚筒的烟叶流量、加水量、筒温、热风温度、蒸汽质量流量、出口水分和温度等回潮滚筒的相关参数，具体采集方式和处理方式与步骤1相同。

将采集的回潮滚筒的相关参数输入至烟叶容重测量模型，经过实时推算输出烟丝容重测量值。

上述提供的基于强化学习的烟叶容重测量方法利用基于强化学习构建的烟叶容重测量模型能够实时准确地测量烟叶容重，为PLD出料控制提供数据基础，该烟叶容重测量值可以用于后端柜式喂料机的出料控制，极大的优化了流量的稳定性，提高设备运行效率，减少缺料或者断料的风险。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于强化学习的烟叶容重测量方法，其特征在于，包括以下步骤：

应用时，实时采集回潮滚筒的相关参数，烟叶容重测量模型依据回潮滚筒的相关参数实时推算输出烟丝容重测量值；

动作奖励值r(t)表示为：

M_act＝δu

其中，δ为比例系数，u为皮带秤调节速率；

其中，构建的TD误差δ_TD(t)表示为：

δ_TD(t)＝r(t)+γv_π(t+1)-v_π(t)

其中，r(t)表示动作奖励值，v_π(t)表示评价网络依据t时刻状态数据采取动作策略π得到的回报价值，v_π(t+1)表示评价网络依据t+1时刻状态数据采取动作策略π得到的回报价值，γ为修正因子，表示未来回报价值相对于当前回报价值的重要程度；

动作网络的优化目标是优化网络参数使输出回报值高的烟叶容重，损失函数L_π为：

L_π＝-δ_TD(t)logπ_θ(s,a)

依据损失函数L_π更新动作网络参数的过程为：

θ^(t)＝θ^(t-1)+α▽L_π

其中，θ^(t)表示t时刻的动作网络参数，θ^(t-1)表示t-1时刻的动作网络参数，α表示学习率，▽L_π表示损失函数L_π的梯度；

评价网络的损失函数L_v为：

其中，δ_TD(t)表示t时刻的TD误差；

依据损失函数L_v更新评价网络参数的过程为：

w⁽ⁿ⁾＝w^(n-1)+βΔL_v

其中，β表示学习率，ΔL_v表示损失函数L_v的梯度。

2.如权利要求1所述的基于强化学习的烟叶容重测量方法，其特征在于，蒸汽直接喷到回潮滚筒内的烟叶上，采集蒸汽体积流量V、蒸汽温度T、蒸汽压力P计算蒸汽密度D和蒸汽质量流量Q：

Q＝D*V。

3.如权利要求1或2所述的基于强化学习的烟叶容重测量方法，其特征在于，所述蒸汽体积流量V、蒸汽温度T、蒸汽压力P以及加水量在被应用于烟叶容重测量模型之前，均需要进行平滑处理，具体平滑处理过程为：

其中，T_a表示扫描周期，T_f表示滤波时间，C₁、C₂、C₃表示巴特沃斯特性系数，D₁、D₂、D₃、E均表示中间计算值，X_e表示输入变量值，为蒸汽体积流量V、蒸汽温度T、蒸汽压力P或加水量，Y_a表示输入变量值

对应的输出变量值，K表示迭代次数。

4.如权利要求1或2所述的基于强化学习的烟叶容重测量方法，其特征在于，针对烟叶流量，通过回潮滚筒入口处的皮带秤测量得到烟叶流量；