CN112362522B - 一种基于强化学习的烟叶容重测量方法 - Google Patents
一种基于强化学习的烟叶容重测量方法 Download PDFInfo
- Publication number
- CN112362522B CN112362522B CN202011149673.5A CN202011149673A CN112362522B CN 112362522 B CN112362522 B CN 112362522B CN 202011149673 A CN202011149673 A CN 202011149673A CN 112362522 B CN112362522 B CN 112362522B
- Authority
- CN
- China
- Prior art keywords
- tobacco
- tobacco leaf
- action
- temperature
- volume weight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N5/00—Analysing materials by weighing, e.g. weighing small particles separated from a gas or liquid
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N25/00—Investigating or analyzing materials by the use of thermal means
- G01N25/20—Investigating or analyzing materials by the use of thermal means by investigating the development of heat, i.e. calorimetry, e.g. by measuring specific heat, by measuring thermal conductivity
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Biochemistry (AREA)
- Immunology (AREA)
- Pathology (AREA)
- Theoretical Computer Science (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Manufacturing Of Cigar And Cigarette Tobacco (AREA)
- Manufacture Of Tobacco Products (AREA)
Abstract
本发明公开了一种基于强化学习的烟叶容重测量方法,包括:构建基于强化学习的烟叶容重测量模型:以包含烟叶流量、加水量、筒温、热风温度、蒸汽质量流量、出口水分和温度的回潮滚筒的相关参数作为状态数据,采用强化学习算法中的动作网络依据状态数据推算得到烟叶容重测量值,并根据烟叶容重测量值与烟叶容重实际值计算动作奖励值,并依据该动作奖励值构建TD误差,依据TD误差来构建动作网络和强化学习算法中的评价网络的损失函数,依据损失函数优化更新动作网络和评价网络参数,优化结束后,参数确定的动作网络作为烟叶容重测量模型;应用时,烟叶容重测量模型依据实时采集的回潮滚筒的相关参数实时推算输出烟丝容重测量值。
Description
技术领域
本发明属于烟叶容重测量领域,具体涉及一种基于强化学习的烟叶容重测量方法。
背景技术
烟叶容重作为一个烟叶指标是跟烟叶的品种息息相关的,不同类型的烟叶容重差别比较大,目前通常采用了静态测量的方法来获取烟叶的容重,如申请公开号为CN101393101A的专利申请公开了一种采用近红外光谱测定烟叶叶面密度的方法。和申请公开号为CN106213570的专利申请公开的一种再造烟叶浓缩液密度的测定方法。但是在连续生产过程中,同一批次产量会混有各种类型的烟叶,造成容重变化的不稳定,因而也无法实时获得完整的容重信息。
发明内容
本发明的目的是提供一种基于强化学习的烟叶容重测量方法,实现烟叶容重的实时测量。
为实现上述发明目的,本发明提供以下技术方案:
一种基于强化学习的烟叶容重测量方法,包括以下步骤:
构建基于强化学习的烟叶容重测量模型,具体过程为:以包含烟叶流量、加水量、筒温、热风温度、蒸汽质量流量、出口水分和温度的回潮滚筒的相关参数作为状态数据,采用强化学习算法中的动作网络依据状态数据推算得到烟叶容重测量值,并根据烟叶容重测量值与烟叶容重实际值计算动作奖励值,并依据该动作奖励值构建TD误差,依据TD误差来构建动作网络和强化学习算法中的评价网络的损失函数,依据损失函数优化更新动作网络和评价网络参数,优化结束后,参数确定的动作网络作为烟叶容重测量模型;
应用时,实时采集回潮滚筒的相关参数,烟叶容重测量模型依据回潮滚筒的相关参数实时推算输出烟丝容重测量值。
与现有技术相比,本发明具有的有益效果至少包括:
本发明提供的基于强化学习的烟叶容重测量方法利用基于强化学习构建的烟叶容重测量模型能够实时准确地测量烟叶容重,为PLD出料控制提供数据基础。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
图1是本发明实施例提供的基于强化学习的烟叶容重测量方法的流程图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
由于占地少,维护方便等原因,烟草生产行业内,柜式喂料机开始逐渐取代仓储式喂料机。但是柜式喂料机无法采用传统的PID控制来稳定出料流量,因此需要提出一种带预测模型的出料控制方法,该出料控制方法的原理是通过烟叶的其他指标获得动态的烟叶容重变化,再结合烟叶的体积,计算出柜式喂料机出口出的烟叶质量分布,通过调节合适的柜式喂料机出料底带的频率,提高流量的稳定性。
这种带预测模型的出料控制方法最核心的技术就是烟叶容重的测算,因此,实施例提供一种基于强化学习的烟叶容重测量方法,根据烟叶在生产过程中的各项参数指标数据,结合强化学习,动态计算烟叶在回潮出口处的容重变化,获得与实际容重相近的结果。
如图1所示,实施例提供的基于强化学习的烟叶容重测量方法包括以下步骤:
步骤1,基于强化学习构建烟叶容重测量模型。
强化学习算法包含动作网络和评价网络,动作网络和评价网络均采用神经网络,用于基于环境状态数据产生动作策略,评价网络用于评价产生的动作策略的未来回报价值,因此,利用强化学习算法解决问题时,环境状态的选择,动作策略的认定,依据动作赋予的动作奖励值和损失函数的确定都非常重要,直接影响解决问题的效果。
经过研究发现,在烟叶回潮系统中,不同的烟叶类型具有不同的容重,容重的影响在于对水分吸收和温度保持的能力,即便是同样的烟叶流量、加水量、筒温和热风的情况下,其出口水分和温度仍然会出现波动。比如容重特别大的白肋烟,出口温度就明显的低于平均水平。同时,回潮滚筒的烟叶流量、加水量、筒温、热风温度、蒸汽质量流量、出口水分和温度等相关参数均会影响烟叶容重,因此,选择包含烟叶流量、加水量、筒温、热风温度、蒸汽质量流量、出口水分和温度的回潮滚筒的相关参数作为状态数据,该状态数据作为动作网络的输入数据,动作网络采用神经网络,根据状态数据计算输出表示烟叶容重的动作策略概率分布,从动作策略概率分布中选择概率最大值作为烟叶容重测量值。
本实施例中,针对烟叶流量,通过回潮滚筒入口处的皮带秤测量得到烟叶流量;
针对加水量,通过烟叶流量与加水量的映射关系计算得到加水量,并通过水流量计监测和控制加水量;
针对筒温,检测回潮滚筒的冷凝水温度作为筒温,并通过气动薄膜阀控制输入回潮滚筒的蒸汽流量;
针对热风温度,新风通过热交换器转换为热风,利用温度仪检测热风温度,并通过气动薄膜阀控制新风的通入量;
针对出口水分和温度,采用回潮滚筒出口处的水分仪和温度仪检测出口水分和温度。
同时,在烟叶回潮系统,蒸汽直接喷到回潮滚筒内的烟叶上,采集蒸汽体积流量V、蒸汽温度T、蒸汽压力P计算蒸汽密度D和蒸汽质量流量Q:
Q=D*V。
以上回潮滚筒的相关参数均可以通过OPC从PLC读取得到。
为了减少数据误差影响,所述蒸汽体积流量V、蒸汽温度T、蒸汽压力P以及加水量在被应用于烟叶容重测量模型之前,均需要进行平滑处理,具体平滑处理过程为:
其中,Ta表示扫描周期,Tf表示滤波时间,C1、C2、C3表示巴特沃斯特性系数,D1、D2、D3、E均表示中间计算值,Xe表示输入变量值,为蒸汽体积流量V、蒸汽温度T、蒸汽压力P或加水量,Ya表示输入变量值对应的输出变量值,K表示迭代次数。
本实施例中,根据烟叶容重测量值与烟叶容重实际值计算动作奖励值,具体地,动作奖励值r(t)表示为:
其中,Mact为烟叶容重实际值,Mtar为烟叶容重测算值,烟叶容重实际值是根据柜式喂料机后端的皮带秤调节速率折算得到,在皮带秤通过烟叶体积保持稳定的情况下,皮带秤的调节速率是跟容重成线性的正比关系即:
Mact=βu
其中,β为比例系数,u为皮带秤调节速率。
在获得动作奖励值基础上,可以根据动作奖励值构建TD误差,具体地,构建的TD误差δTD(t)表示为:
δTD(t)=r(t)+γvπ(t+1)-vπ(t)
其中,r(t)表示动作奖励值,vπ(t)表示评价网络依据t时刻状态数据采取动作策略π得到的回报价值,vπ(t+1)表示评价网络依据t+1时刻状态数据采取动作策略π得到的回报价值,γ为修正因子,表示未来回报价值相对于当前回报价值的重要程度。
在获得TD误差δTD(t)的基础上,可以TD误差来构建动作网络和强化学习算法中的评价网络的损失函数,依据损失函数优化更新动作网络和评价网络参数。动作网络的优化目标是优化网络参数使输出回报值高的烟叶容重,损失函数Lπ为:
Lπ=-δTD(t)logπθ(s,a)
其中,δTD(t)表示t时刻的TD误差,πθ(s,a)表示参数为θ的动作网络依据环境状态数据s产生动作a的动作策略;
依据损失函数Lπ更新动作网络参数的过程为:
构建的评价网络的损失函数Lv为:
其中,δTD(t)表示t时刻的TD误差;
依据损失函数Lv更新评价网络参数的过程为:
w(n)=w(n-1)+βΔLv
其中,β表示学习率,ΔLv表示损失函数Lv的梯度。
按照上述损失函数Lπ和损失函数Lv优化结束后,动作网络参数和评价网络参数均确定,参数确定的动作网络作为烟叶容重测量模型。
步骤2,应用上述烟叶容重测量模型进行烟叶容重的实时测量。
在应用时,实时采集回潮滚筒的烟叶流量、加水量、筒温、热风温度、蒸汽质量流量、出口水分和温度等回潮滚筒的相关参数,具体采集方式和处理方式与步骤1相同。
将采集的回潮滚筒的相关参数输入至烟叶容重测量模型,经过实时推算输出烟丝容重测量值。
上述提供的基于强化学习的烟叶容重测量方法利用基于强化学习构建的烟叶容重测量模型能够实时准确地测量烟叶容重,为PLD出料控制提供数据基础,该烟叶容重测量值可以用于后端柜式喂料机的出料控制,极大的优化了流量的稳定性,提高设备运行效率,减少缺料或者断料的风险。
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种基于强化学习的烟叶容重测量方法,其特征在于,包括以下步骤:
构建基于强化学习的烟叶容重测量模型,具体过程为:以包含烟叶流量、加水量、筒温、热风温度、蒸汽质量流量、出口水分和温度的回潮滚筒的相关参数作为状态数据,采用强化学习算法中的动作网络依据状态数据推算得到烟叶容重测量值,并根据烟叶容重测量值与烟叶容重实际值计算动作奖励值,并依据该动作奖励值构建TD误差,依据TD误差来构建动作网络和强化学习算法中的评价网络的损失函数,依据损失函数优化更新动作网络和评价网络参数,优化结束后,参数确定的动作网络作为烟叶容重测量模型;
应用时,实时采集回潮滚筒的相关参数,烟叶容重测量模型依据回潮滚筒的相关参数实时推算输出烟丝容重测量值;
动作奖励值r(t)表示为:
其中,Mact为烟叶容重实际值,Mtar为烟叶容重测算值,烟叶容重实际值是根据柜式喂料机后端的皮带秤调节速率折算得到,在皮带秤通过烟叶体积保持稳定的情况下,皮带秤的调节速率是跟容重成线性的正比关系即:
Mact=δu
其中,δ为比例系数,u为皮带秤调节速率;
其中,构建的TD误差δTD(t)表示为:
δTD(t)=r(t)+γvπ(t+1)-vπ(t)
其中,r(t)表示动作奖励值,vπ(t)表示评价网络依据t时刻状态数据采取动作策略π得到的回报价值,vπ(t+1)表示评价网络依据t+1时刻状态数据采取动作策略π得到的回报价值,γ为修正因子,表示未来回报价值相对于当前回报价值的重要程度;
动作网络的优化目标是优化网络参数使输出回报值高的烟叶容重,损失函数Lπ为:
Lπ=-δTD(t)logπθ(s,a)
其中,δTD(t)表示t时刻的TD误差,πθ(s,a)表示参数为θ的动作网络依据环境状态数据s产生动作a的动作策略;
依据损失函数Lπ更新动作网络参数的过程为:
θ(t)=θ(t-1)+α▽Lπ
其中,θ(t)表示t时刻的动作网络参数,θ(t-1)表示t-1时刻的动作网络参数,α表示学习率,▽Lπ表示损失函数Lπ的梯度;
评价网络的损失函数Lv为:
其中,δTD(t)表示t时刻的TD误差;
依据损失函数Lv更新评价网络参数的过程为:
w(n)=w(n-1)+βΔLv
其中,β表示学习率,ΔLv表示损失函数Lv的梯度。
4.如权利要求1或2所述的基于强化学习的烟叶容重测量方法,其特征在于,针对烟叶流量,通过回潮滚筒入口处的皮带秤测量得到烟叶流量;
针对加水量,通过烟叶流量与加水量的映射关系计算得到加水量,并通过水流量计监测和控制加水量;
针对筒温,检测回潮滚筒的冷凝水温度作为筒温,并通过气动薄膜阀控制输入回潮滚筒的蒸汽流量;
针对热风温度,新风通过热交换器转换为热风,利用温度仪检测热风温度,并通过气动薄膜阀控制新风的通入量;
针对出口水分和温度,采用回潮滚筒出口处的水分仪和温度仪检测出口水分和温度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011149673.5A CN112362522B (zh) | 2020-10-23 | 2020-10-23 | 一种基于强化学习的烟叶容重测量方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011149673.5A CN112362522B (zh) | 2020-10-23 | 2020-10-23 | 一种基于强化学习的烟叶容重测量方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112362522A CN112362522A (zh) | 2021-02-12 |
CN112362522B true CN112362522B (zh) | 2022-08-02 |
Family
ID=74512016
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011149673.5A Active CN112362522B (zh) | 2020-10-23 | 2020-10-23 | 一种基于强化学习的烟叶容重测量方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112362522B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101393101A (zh) * | 2008-10-30 | 2009-03-25 | 中国烟草总公司郑州烟草研究院 | 采用近红外光谱测定烟叶叶面密度的方法 |
CN109674080A (zh) * | 2019-03-07 | 2019-04-26 | 山东中烟工业有限责任公司 | 烟叶回潮加水量预测方法、存储介质及终端设备 |
CN110488861A (zh) * | 2019-07-30 | 2019-11-22 | 北京邮电大学 | 基于深度强化学习的无人机轨迹优化方法、装置和无人机 |
CN110781969A (zh) * | 2019-10-30 | 2020-02-11 | 龙岩烟草工业有限责任公司 | 基于深度强化学习的空调风量控制方法、装置以及介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101502337B (zh) * | 2009-02-26 | 2012-05-02 | 孟科峰 | 烟丝生产中叶片回潮过程的建模控制方法 |
JP6549644B2 (ja) * | 2017-06-27 | 2019-07-24 | ファナック株式会社 | 機械学習装置、ロボット制御システム及び機械学習方法 |
US10746123B2 (en) * | 2018-08-21 | 2020-08-18 | Cummins Inc. | Deep reinforcement learning for air handling and fuel system referencing |
-
2020
- 2020-10-23 CN CN202011149673.5A patent/CN112362522B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101393101A (zh) * | 2008-10-30 | 2009-03-25 | 中国烟草总公司郑州烟草研究院 | 采用近红外光谱测定烟叶叶面密度的方法 |
CN109674080A (zh) * | 2019-03-07 | 2019-04-26 | 山东中烟工业有限责任公司 | 烟叶回潮加水量预测方法、存储介质及终端设备 |
CN110488861A (zh) * | 2019-07-30 | 2019-11-22 | 北京邮电大学 | 基于深度强化学习的无人机轨迹优化方法、装置和无人机 |
CN110781969A (zh) * | 2019-10-30 | 2020-02-11 | 龙岩烟草工业有限责任公司 | 基于深度强化学习的空调风量控制方法、装置以及介质 |
Non-Patent Citations (1)
Title |
---|
基于叶形纸称重法的烤烟田间最大叶面积指数研究;徐兴阳;《中国农学通报》;20151231;第31卷(第28期);46-49 * |
Also Published As
Publication number | Publication date |
---|---|
CN112362522A (zh) | 2021-02-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110893001A (zh) | 一种松散回潮工序的出口含水率的控制方法及系统 | |
CN101216715B (zh) | 用神经元网络调节参数的pid控制温度仪表及其控制方法 | |
CN101038277B (zh) | 基于最小二乘-支持向量机的制粉过程煤粉细度软测量方法 | |
US20040002786A1 (en) | Method of predicting dryer steam pressure in paper machine and apparatus for the method | |
CN108393146B (zh) | 一种钢球磨煤机制粉系统自适应最优解耦控制方法 | |
CN101863088A (zh) | 一种橡胶混炼过程中门尼粘度的预报方法 | |
CN106932298B (zh) | 一种储柜内烟丝填充值均值测量方法 | |
CN112818595A (zh) | 一种火电厂蒸发区的数字孪生模型数据的修正方法及系统 | |
CN113812658B (zh) | 基于神经网络模型和双重参数修正的松散回潮加水控制方法 | |
CN113157018B (zh) | 烘干机温度的控制方法、装置、计算机设备和存储介质 | |
CN112273695A (zh) | 松散回潮出口含水率预测方法、装置以及设备 | |
CN112362522B (zh) | 一种基于强化学习的烟叶容重测量方法 | |
CN115121626A (zh) | 一种基于误差补偿的热轧带钢瞬态热辊型预报方法 | |
Han et al. | Model predictive control of the grain drying process | |
CN116865343B (zh) | 分布式光伏配电网的无模型自适应控制方法、装置及介质 | |
CN101995845B (zh) | 基于fpga的自调匀整控制系统及控制方法 | |
CN103559417A (zh) | 一种浆纱上浆率智能软测量方法 | |
CN115061377B (zh) | 一种基于过滤器数据模型的干式喷房维护方法及装置 | |
CN115631804A (zh) | 基于数据协调的蒸发过程铝酸钠溶液出口浓度预测方法 | |
CN112263015A (zh) | 一种柜式喂料机的出料流量的控制方法 | |
Zhang et al. | Application of neural network predictive control in cement combined grinding | |
CN115251445B (zh) | 一种松散回潮机出口烟叶含水率的控制方法 | |
CN114321722B (zh) | 蒸汽管网的压力平衡方法、装置、存储介质以及处理器 | |
CN116700043A (zh) | 一种基于数字孪生多模型融合的碾米机组智能控制方法 | |
CN116734592B (zh) | 干燥pvc水份的控制方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |