CN111459205A - 基于增强学习的加热器具控制系统 - Google Patents
基于增强学习的加热器具控制系统 Download PDFInfo
- Publication number
- CN111459205A CN111459205A CN202010254810.5A CN202010254810A CN111459205A CN 111459205 A CN111459205 A CN 111459205A CN 202010254810 A CN202010254810 A CN 202010254810A CN 111459205 A CN111459205 A CN 111459205A
- Authority
- CN
- China
- Prior art keywords
- reinforcement learning
- module
- heating
- state set
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D23/00—Control of temperature
- G05D23/19—Control of temperature characterised by the use of electric means
- G05D23/1917—Control of temperature characterised by the use of electric means using digital means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Automation & Control Theory (AREA)
- Control Of Resistance Heating (AREA)
Abstract
本发明涉及电加热器领域,公开了一种基于增强学习的加热器具控制系统,用以实现更为精确的温度控制,保证加热器具的温度一致性。本发明包括:电压模块,用于实时采集并输出加热元件发热丝的电压值;电流模块,用于实时采集并输出加热元件发热丝的电流值;状态生成模块,用于将电压值和电流值通过卷积神经网络提取电阻特征,生成状态集;其中,生成状态集的方法包括:将采集的电压值与电流值分别构建一维向量,再将一维向量按照固定的规则进行行方向拼合,编码成稀疏矩阵,与提取的电阻特征融合得到状态集;增强学习模块,包括增强学习网络,该增强学习网络以状态集作为输入,学习状态转换策略得到PWM输出指令。本发明适用于卷烟用加热器具。
Description
技术领域
本发明涉及电加热器领域,特别涉及基于增强学习的加热器具控制系统。
背景技术
随着消费者对生活品质与健康追求的不断提高,旨在减少有害成分释放量和吸食风险的新型烟草制品在近几年受到广泛关注,呈现爆炸式的增长。以加热卷烟为代表的新型烟草制品改变了传统烟草燃吸的消费方式,以其有害成分释放量低、安全友好,同时抽吸体验良好等特点得到更多消费者的关注和接受。
加热器具是抽吸加热卷烟必不可少的配套电子产品,其温度控制的精度是影响加热卷烟抽吸感受的关键。目前主流的加热器具大都使用PID闭环控制算法,通过利用加热元件发热丝的电阻/温度TCR参数,计算发热丝的电阻值,从而调整PWM以实现加热温度的一致。通过此种策略来对加热元件的温度进行调整,无法对温度进行更为一致的校准,即无法保证精确的指导信号。
中国专利文献CN 105446393B公开了一组控制电加热元件的方法和装置及气溶胶产生系统,通过对加热元件供应电力,将加热元件的温度在多个加热阶段期间维持在目标温度,将在每一加热阶段期间对加热元件供应的电力限制为阈值电力水平,使得在加热元件启动后,变量B随着时间的增加而逐渐减小,其中,变量B等于阈值电力水平除以目标温度。通过此种方法,易受加热元件发热丝阻值误差的影响,导致目标温度偏差较大,只能通过后期的校准对温度进行调整。
发明内容
本发明要解决的技术问题是:提出一种基于增强学习的加热器具控制系统,用以实现更为精确的温度控制,保证加热器具的温度一致性。
为解决上述问题,本发明采用的技术方案是:提供了一种基于增强学习的加热器具控制系统,包括:
电压模块,用于实时采集并输出加热元件发热丝的电压值;
电流模块,用于实时采集并输出加热元件发热丝的电流值;
状态生成模块,用于将电压值和电流值通过卷积神经网络(CNN)提取电阻特征,生成状态集;其中,生成状态集的方法包括:将采集的电压值与电流值分别构建一维向量,再将一维向量按照固定的规则进行行方向拼合,编码成稀疏矩阵,所述稀疏矩阵的维度和卷积神经网络的输入相同,与提取的电阻特征融合得到状态集;
增强学习模块,包括增强学习网络,所述增强学习网络以状态集作为输入,学习状态转换策略得到PWM输出指令。
进一步的,状态生成模块可将得到的状态集通过聚类算法进行聚类,得到重新编码的状态集。
进一步的,所述增强学习网络为Deep Q Learning(DQN)网络。DQN网络是一种融合了神经网络的Q-Learning算法网络,该网络分为训练阶段和测试阶段:
1、在训练阶段时,网络有一个代理器于一个环境模拟。代理器输入对环境状态集,并预测下一个时刻的动作值,与环境模拟器之间进行比较。
2、在测试阶段时,网络仅使用代理器,输入当前的状态集,预测下一个时刻的动作值。
本发明中,状态生成模块可将当前得到的状态集通过DQN网络进行计算,得到下一步所有动作值,并根据最大动作值,选择下一步的动作。
具体的,卷积神经网络可选用AlexNet、VGG等经典算法。
进一步的,为了提升整个系统的集成程度,所述状态生成模块和增强学习模块均可设置在统一的FPGA芯片中。
本发明的有益效果是:本发明控制系统以加热元件发热丝电压值和电流值作为输入,不会受加热元件发热丝阻值误差的影响,使得温度控制更加可靠。
附图说明
图1为实施例的系统框图;
图2为增强学习的原理图;
图3为实施例的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
实施例
为了解决加热卷烟用加热器具的控制系统易受加热元件发热丝阻值误差的影响,导致目标温度偏差较大的问题,实施例提供了一种基于增强学习的加热器具控制系统,如图1所示,包括电压模块、电流模块、状态生成模块以及增强学习模块,其中:
电压模块用于实时采集并输出加热元件发热丝的电压值。
电流模块用于实时采集并输出加热元件发热丝的电流值。
状态集生成模块,用于将电压值和电流值通过卷积神经网络(CNN)提取电阻特征,生成状态集。CNN网络可以在FPGA或者arm芯片上实现,进行实时的电阻特征提取。CNN可以选择如AlexNet,VGG等经典方法。实施例在生成状态集时,将采集的电压值与电流值分别构建一维向量,再将一维向量按照固定的规则进行行方向拼合,编码成稀疏矩阵,所述稀疏矩阵的维度和卷积神经网络的输入相同,与提取的电阻特征融合得到状态集。这样,便可以将加热元件本身的信息作为卷积神经网络的一个通道进行处理,保证整个网络的结构完整性以及训练的高效性。
增强学习模块包括增强学习网络,该增强学习网络为已经训练好的,其状态转换策略具有普适性,可以根据产品需要来制定芯片,为了整个系统的集成程度,这里可以采用统一的FPGA芯片或者普通的cpu计算芯片。增强学习网络以状态集作为输入,学习状态转换策略得到PWM输出指令。
增强学习是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境(environment)的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。如图2所示,在实施例中agent代表加热元件发热丝,对加热元件发热丝进行控制,就需要做动作(action),如升温、降温的动作,加热元件发热丝做出动作时,它无时无刻都会与环境产生交互,动作会反馈给环境,进而改变环境状态(state),如果加热元件发热丝的目标是升温10度,它升温了5度,那环境状态就发生了变化,所以智能体每次产生动作At都会导致环境改变其状态,环境状态的改变St会反馈Rt给自身(agent),就是这样的一个循环;反馈有两种方式:
做的好(reward)即正反馈,
做得不好(punishment惩罚)即负反馈。
Agent可能做得好,也可能做的不好,环境始终都会给它反馈,agent会尽量去做对自身有利的决策,通过反反复复这样的一个循环,agent会越来越做的好,就像孩子在成长过程中会逐渐明辨是非,这就是强化学习。
在进行增强学习的学习中,由于状态集的规模庞大,显而易见地优选使用Deep QLearning(DQN)方法,用深度网络来拟合值函数,但这会大大增加模型的复杂程度。考虑到状态集的冗余特性,本系统状态生成模块可选择通过聚类的方式对加热元件发热丝的状态集进行重新编码,即将CNN网络输出的M维向量进行聚类。通过此种方法,便可以将加热元件发热丝的状态集锐减成为规模很小的有限状态集的训练,大大降低了模型的复杂度。
如图3所示,实施例进行加热控制的流程如下:
加热卷烟用加热器具的加热元件加热时,电压模块和电流模块分别实时采集并输出加热元件发热丝的电压值和电流值,并通过电压模块和电流模块后端的CNN网络提取加热元件发热丝的电阻特征作为增强学习模块的状态输入,通过增强学习学习到的状态转换策略实时输出PWM输出指令,利用PWM输出指令对加热元件发热丝进行反馈控制。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。
Claims (5)
1.基于增强学习的加热器具控制系统,其特征在于,包括:
电压模块,用于实时采集并输出加热元件发热丝的电压值;
电流模块,用于实时采集并输出加热元件发热丝的电流值;
状态生成模块,用于将电压值和电流值通过卷积神经网络提取电阻特征,生成状态集;其中,生成状态集的方法包括:将采集的电压值与电流值分别构建一维向量,再将一维向量按照固定的规则进行行方向拼合,编码成稀疏矩阵,所述稀疏矩阵的维度和卷积神经网络的输入相同,与提取的电阻特征融合得到状态集;
增强学习模块,包括增强学习网络,所述增强学习网络以状态集作为输入,学习状态转换策略得到PWM输出指令。
2.如权利要求1所述的基于增强学习的加热器具控制系统,其特征在于,状态生成模块会将得到的状态集通过聚类算法进行聚类,得到重新编码的状态集。
3.如权利要求1所述的基于增强学习的加热器具控制系统,其特征在于,所述增强学习网络选用DQN网络。
4.如权利要求1所述的基于增强学习的加热器具控制系统,其特征在于,卷积神经网络选用的算法为AlexNet或者VGG算法。
5.如权利要求1所述的基于增强学习的加热器具控制系统,其特征在于,所述状态生成模块和增强学习模块均设置在统一的FPGA芯片。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010254810.5A CN111459205B (zh) | 2020-04-02 | 2020-04-02 | 基于增强学习的加热器具控制系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010254810.5A CN111459205B (zh) | 2020-04-02 | 2020-04-02 | 基于增强学习的加热器具控制系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111459205A true CN111459205A (zh) | 2020-07-28 |
CN111459205B CN111459205B (zh) | 2021-10-12 |
Family
ID=71681700
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010254810.5A Active CN111459205B (zh) | 2020-04-02 | 2020-04-02 | 基于增强学习的加热器具控制系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111459205B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113080499A (zh) * | 2021-02-26 | 2021-07-09 | 红云红河烟草(集团)有限责任公司 | 一种基于策略的Q-Learning算法控制松散回潮热风温度的方法 |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB1467654A (en) * | 1973-03-23 | 1977-03-16 | Matsushita Electric Ind Co Ltd | Tape heater |
EP0845119A1 (en) * | 1996-06-13 | 1998-06-03 | Koninklijke Philips Electronics N.V. | A circuit arrangement for controlling the temperature of a heating element |
WO2011130720A2 (en) * | 2010-04-16 | 2011-10-20 | Flex Lighting Ii, Llc | Sign comprising a film-based lightguide |
CN102345495A (zh) * | 2010-07-23 | 2012-02-08 | 罗伯特·博世有限公司 | 测量介质温度的方法和温度传感器 |
EP2558775A2 (en) * | 2010-04-16 | 2013-02-20 | Flex Lighting Ii, Llc | Illumination device comprising a film-based lightguide |
CN103229385A (zh) * | 2010-11-29 | 2013-07-31 | 宝马股份公司 | 用于汽车的蓄能装置 |
CN204595531U (zh) * | 2015-05-11 | 2015-08-26 | 上海松江飞繁电子有限公司 | 一种回路总线控制电路 |
CN105223427A (zh) * | 2014-06-17 | 2016-01-06 | 西门子公司 | 故障电弧的检测方法和检测装置 |
CN105446393A (zh) * | 2012-09-11 | 2016-03-30 | 菲利普莫里斯生产公司 | 控制电加热元件的方法和装置及气溶胶产生系统 |
CN106203531A (zh) * | 2016-07-20 | 2016-12-07 | 清华大学 | 一种基于卷积稀疏自动编码器的输电线故障分类方法 |
CN206057547U (zh) * | 2016-09-26 | 2017-03-29 | 株洲中车时代电气股份有限公司 | 一种便携式直流电压传感器测试装置 |
CN107924485A (zh) * | 2015-09-23 | 2018-04-17 | 英特尔公司 | 具有基于电阻的学习规则电路的电子神经网络电路 |
CN108245384A (zh) * | 2017-12-12 | 2018-07-06 | 清华大学苏州汽车研究院(吴江) | 基于增强学习的双目视觉导盲仪 |
CN109002586A (zh) * | 2018-06-25 | 2018-12-14 | 国网湖南省电力有限公司 | 一种避雷器温度计算方法和系统 |
CN109936149A (zh) * | 2019-03-27 | 2019-06-25 | 安徽三联学院 | 一种基于直流电压维持技术的电容器快速投切开关电路 |
CN110188771A (zh) * | 2019-05-17 | 2019-08-30 | 湖南大学 | 基于图像处理的非侵入式电力负荷特征提取、识别方法、系统及介质 |
-
2020
- 2020-04-02 CN CN202010254810.5A patent/CN111459205B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB1467654A (en) * | 1973-03-23 | 1977-03-16 | Matsushita Electric Ind Co Ltd | Tape heater |
EP0845119A1 (en) * | 1996-06-13 | 1998-06-03 | Koninklijke Philips Electronics N.V. | A circuit arrangement for controlling the temperature of a heating element |
WO2011130720A2 (en) * | 2010-04-16 | 2011-10-20 | Flex Lighting Ii, Llc | Sign comprising a film-based lightguide |
EP2558775A2 (en) * | 2010-04-16 | 2013-02-20 | Flex Lighting Ii, Llc | Illumination device comprising a film-based lightguide |
CN102345495A (zh) * | 2010-07-23 | 2012-02-08 | 罗伯特·博世有限公司 | 测量介质温度的方法和温度传感器 |
CN103229385A (zh) * | 2010-11-29 | 2013-07-31 | 宝马股份公司 | 用于汽车的蓄能装置 |
CN105446393A (zh) * | 2012-09-11 | 2016-03-30 | 菲利普莫里斯生产公司 | 控制电加热元件的方法和装置及气溶胶产生系统 |
CN105223427A (zh) * | 2014-06-17 | 2016-01-06 | 西门子公司 | 故障电弧的检测方法和检测装置 |
CN204595531U (zh) * | 2015-05-11 | 2015-08-26 | 上海松江飞繁电子有限公司 | 一种回路总线控制电路 |
CN107924485A (zh) * | 2015-09-23 | 2018-04-17 | 英特尔公司 | 具有基于电阻的学习规则电路的电子神经网络电路 |
CN106203531A (zh) * | 2016-07-20 | 2016-12-07 | 清华大学 | 一种基于卷积稀疏自动编码器的输电线故障分类方法 |
CN206057547U (zh) * | 2016-09-26 | 2017-03-29 | 株洲中车时代电气股份有限公司 | 一种便携式直流电压传感器测试装置 |
CN108245384A (zh) * | 2017-12-12 | 2018-07-06 | 清华大学苏州汽车研究院(吴江) | 基于增强学习的双目视觉导盲仪 |
CN109002586A (zh) * | 2018-06-25 | 2018-12-14 | 国网湖南省电力有限公司 | 一种避雷器温度计算方法和系统 |
CN109936149A (zh) * | 2019-03-27 | 2019-06-25 | 安徽三联学院 | 一种基于直流电压维持技术的电容器快速投切开关电路 |
CN110188771A (zh) * | 2019-05-17 | 2019-08-30 | 湖南大学 | 基于图像处理的非侵入式电力负荷特征提取、识别方法、系统及介质 |
Non-Patent Citations (2)
Title |
---|
杨帆等: "小电流接地故障多层次分类及其识别模型", 《电力系统自动化》 * |
牟少敏 等: "《模式识别与机器学习技术》", 30 June 2019, 冶金工业出版社 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113080499A (zh) * | 2021-02-26 | 2021-07-09 | 红云红河烟草(集团)有限责任公司 | 一种基于策略的Q-Learning算法控制松散回潮热风温度的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111459205B (zh) | 2021-10-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Fang et al. | A hybrid of real coded genetic algorithm and artificial fish swarm algorithm for short-term optimal hydrothermal scheduling | |
Civelek et al. | Proportional–integral–derivative parameter optimisation of blade pitch controller in wind turbines by a new intelligent genetic algorithm | |
Panda et al. | Comparison of particle swarm optimization and genetic algorithm for FACTS-based controller design | |
Cai et al. | A fuzzy adaptive chaotic ant swarm optimization for economic dispatch | |
CN110212551B (zh) | 基于卷积神经网络的微网无功自动控制方法 | |
CN104317195B (zh) | 一种基于改进极限学习机的非线性逆模型控制方法 | |
Yong | An improved artificial fish swarm algorithm for optimal operation of cascade reservoirs | |
CN106787695B (zh) | 一种动态响应优化的开关电源控制方法 | |
Chen et al. | Interpretable time-adaptive transient stability assessment based on dual-stage attention mechanism | |
CN111459205B (zh) | 基于增强学习的加热器具控制系统 | |
CN109857459A (zh) | 一种e级超算海洋模式自动移植优化方法及系统 | |
CN110163540A (zh) | 电力系统暂态稳定预防控制方法及系统 | |
Kumar et al. | Monarch butterfly optimization-based computational methodology for unit commitment problem | |
CN108229640B (zh) | 情绪表达的方法、装置和机器人 | |
Zheng et al. | Enabling robust DRL-driven networking systems via teacher-student learning | |
CN115293052A (zh) | 电力系统有功潮流在线优化控制方法、存储介质和装置 | |
CN115795992A (zh) | 一种基于运行态势虚拟推演的园区能源互联网在线调度方法 | |
CN108388115A (zh) | 基于广义预测控制的ncs网络时延补偿方法 | |
CN107728481A (zh) | 一种基于模型预测控制的闭环建模方法及装置 | |
Qin et al. | Deep reinforcement learning based power system optimal carbon emission flow | |
Galić et al. | Improving the generalization performance of multi-layer-perceptrons with population-based incremental learning | |
CN110285567A (zh) | 用于预测出水温度的方法及装置、水体加热装置 | |
Zheng et al. | Leveraging domain knowledge for robust deep reinforcement learning in networking | |
López-Cardona et al. | Proximal policy optimization with graph neural networks for optimal power flow | |
Okafor et al. | Photovoltaic System MPPT Evaluation Using Classical, Meta-Heuristics, and Reinforcement Learning-Based Controllers: A Comparative Study |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |