CN111459205A

CN111459205A - 基于增强学习的加热器具控制系统

Info

Publication number: CN111459205A
Application number: CN202010254810.5A
Authority: CN
Inventors: 包毅; 黄玉川; 汤磊; 韩咚林; 赵德清; 郑怡; 谢力
Original assignee: China Tobacco Sichuan Industrial Co Ltd; Sichuan Sanlian New Material Co Ltd
Current assignee: China Tobacco Sichuan Industrial Co Ltd; Sichuan Sanlian New Material Co Ltd
Priority date: 2020-04-02
Filing date: 2020-04-02
Publication date: 2020-07-28
Anticipated expiration: 2040-04-02
Also published as: CN111459205B

Abstract

本发明涉及电加热器领域，公开了一种基于增强学习的加热器具控制系统，用以实现更为精确的温度控制，保证加热器具的温度一致性。本发明包括：电压模块，用于实时采集并输出加热元件发热丝的电压值；电流模块，用于实时采集并输出加热元件发热丝的电流值；状态生成模块，用于将电压值和电流值通过卷积神经网络提取电阻特征，生成状态集；其中，生成状态集的方法包括：将采集的电压值与电流值分别构建一维向量，再将一维向量按照固定的规则进行行方向拼合，编码成稀疏矩阵，与提取的电阻特征融合得到状态集；增强学习模块，包括增强学习网络，该增强学习网络以状态集作为输入，学习状态转换策略得到PWM输出指令。本发明适用于卷烟用加热器具。

Description

基于增强学习的加热器具控制系统

技术领域

本发明涉及电加热器领域，特别涉及基于增强学习的加热器具控制系统。

背景技术

随着消费者对生活品质与健康追求的不断提高，旨在减少有害成分释放量和吸食风险的新型烟草制品在近几年受到广泛关注，呈现爆炸式的增长。以加热卷烟为代表的新型烟草制品改变了传统烟草燃吸的消费方式，以其有害成分释放量低、安全友好，同时抽吸体验良好等特点得到更多消费者的关注和接受。

加热器具是抽吸加热卷烟必不可少的配套电子产品，其温度控制的精度是影响加热卷烟抽吸感受的关键。目前主流的加热器具大都使用PID闭环控制算法，通过利用加热元件发热丝的电阻/温度TCR参数，计算发热丝的电阻值，从而调整PWM以实现加热温度的一致。通过此种策略来对加热元件的温度进行调整，无法对温度进行更为一致的校准，即无法保证精确的指导信号。

中国专利文献CN 105446393B公开了一组控制电加热元件的方法和装置及气溶胶产生系统，通过对加热元件供应电力，将加热元件的温度在多个加热阶段期间维持在目标温度，将在每一加热阶段期间对加热元件供应的电力限制为阈值电力水平，使得在加热元件启动后，变量B随着时间的增加而逐渐减小，其中，变量B等于阈值电力水平除以目标温度。通过此种方法，易受加热元件发热丝阻值误差的影响，导致目标温度偏差较大，只能通过后期的校准对温度进行调整。

发明内容

本发明要解决的技术问题是：提出一种基于增强学习的加热器具控制系统，用以实现更为精确的温度控制，保证加热器具的温度一致性。

为解决上述问题，本发明采用的技术方案是：提供了一种基于增强学习的加热器具控制系统，包括：

电压模块，用于实时采集并输出加热元件发热丝的电压值；

电流模块，用于实时采集并输出加热元件发热丝的电流值；

状态生成模块，用于将电压值和电流值通过卷积神经网络(CNN)提取电阻特征，生成状态集；其中，生成状态集的方法包括：将采集的电压值与电流值分别构建一维向量，再将一维向量按照固定的规则进行行方向拼合，编码成稀疏矩阵，所述稀疏矩阵的维度和卷积神经网络的输入相同，与提取的电阻特征融合得到状态集；

增强学习模块，包括增强学习网络，所述增强学习网络以状态集作为输入，学习状态转换策略得到PWM输出指令。

进一步的，状态生成模块可将得到的状态集通过聚类算法进行聚类，得到重新编码的状态集。

进一步的，所述增强学习网络为Deep Q Learning(DQN)网络。DQN网络是一种融合了神经网络的Q-Learning算法网络，该网络分为训练阶段和测试阶段：

1、在训练阶段时，网络有一个代理器于一个环境模拟。代理器输入对环境状态集，并预测下一个时刻的动作值，与环境模拟器之间进行比较。

2、在测试阶段时，网络仅使用代理器，输入当前的状态集，预测下一个时刻的动作值。

本发明中，状态生成模块可将当前得到的状态集通过DQN网络进行计算，得到下一步所有动作值，并根据最大动作值，选择下一步的动作。

具体的，卷积神经网络可选用AlexNet、VGG等经典算法。

进一步的，为了提升整个系统的集成程度，所述状态生成模块和增强学习模块均可设置在统一的FPGA芯片中。

本发明的有益效果是：本发明控制系统以加热元件发热丝电压值和电流值作为输入，不会受加热元件发热丝阻值误差的影响，使得温度控制更加可靠。

附图说明

图1为实施例的系统框图；

图2为增强学习的原理图；

图3为实施例的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

实施例

为了解决加热卷烟用加热器具的控制系统易受加热元件发热丝阻值误差的影响，导致目标温度偏差较大的问题，实施例提供了一种基于增强学习的加热器具控制系统，如图1所示，包括电压模块、电流模块、状态生成模块以及增强学习模块，其中：

电压模块用于实时采集并输出加热元件发热丝的电压值。

电流模块用于实时采集并输出加热元件发热丝的电流值。

状态集生成模块，用于将电压值和电流值通过卷积神经网络(CNN)提取电阻特征，生成状态集。CNN网络可以在FPGA或者arm芯片上实现，进行实时的电阻特征提取。CNN可以选择如AlexNet，VGG等经典方法。实施例在生成状态集时，将采集的电压值与电流值分别构建一维向量，再将一维向量按照固定的规则进行行方向拼合，编码成稀疏矩阵，所述稀疏矩阵的维度和卷积神经网络的输入相同，与提取的电阻特征融合得到状态集。这样，便可以将加热元件本身的信息作为卷积神经网络的一个通道进行处理，保证整个网络的结构完整性以及训练的高效性。

增强学习模块包括增强学习网络，该增强学习网络为已经训练好的，其状态转换策略具有普适性，可以根据产品需要来制定芯片，为了整个系统的集成程度，这里可以采用统一的FPGA芯片或者普通的cpu计算芯片。增强学习网络以状态集作为输入，学习状态转换策略得到PWM输出指令。

增强学习是机器学习的范式和方法论之一，用于描述和解决智能体(agent)在与环境(environment)的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。如图2所示，在实施例中agent代表加热元件发热丝，对加热元件发热丝进行控制，就需要做动作(action)，如升温、降温的动作，加热元件发热丝做出动作时，它无时无刻都会与环境产生交互，动作会反馈给环境，进而改变环境状态(state)，如果加热元件发热丝的目标是升温10度，它升温了5度，那环境状态就发生了变化，所以智能体每次产生动作A_t都会导致环境改变其状态，环境状态的改变S_t会反馈R_t给自身(agent)，就是这样的一个循环；反馈有两种方式：

做的好(reward)即正反馈，

做得不好(punishment惩罚)即负反馈。

Agent可能做得好，也可能做的不好，环境始终都会给它反馈，agent会尽量去做对自身有利的决策，通过反反复复这样的一个循环，agent会越来越做的好，就像孩子在成长过程中会逐渐明辨是非，这就是强化学习。

在进行增强学习的学习中，由于状态集的规模庞大，显而易见地优选使用Deep QLearning(DQN)方法，用深度网络来拟合值函数，但这会大大增加模型的复杂程度。考虑到状态集的冗余特性，本系统状态生成模块可选择通过聚类的方式对加热元件发热丝的状态集进行重新编码，即将CNN网络输出的M维向量进行聚类。通过此种方法，便可以将加热元件发热丝的状态集锐减成为规模很小的有限状态集的训练，大大降低了模型的复杂度。

如图3所示，实施例进行加热控制的流程如下：

加热卷烟用加热器具的加热元件加热时，电压模块和电流模块分别实时采集并输出加热元件发热丝的电压值和电流值，并通过电压模块和电流模块后端的CNN网络提取加热元件发热丝的电阻特征作为增强学习模块的状态输入，通过增强学习学习到的状态转换策略实时输出PWM输出指令，利用PWM输出指令对加热元件发热丝进行反馈控制。

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.基于增强学习的加热器具控制系统，其特征在于，包括：

电压模块，用于实时采集并输出加热元件发热丝的电压值；

电流模块，用于实时采集并输出加热元件发热丝的电流值；

状态生成模块，用于将电压值和电流值通过卷积神经网络提取电阻特征，生成状态集；其中，生成状态集的方法包括：将采集的电压值与电流值分别构建一维向量，再将一维向量按照固定的规则进行行方向拼合，编码成稀疏矩阵，所述稀疏矩阵的维度和卷积神经网络的输入相同，与提取的电阻特征融合得到状态集；

2.如权利要求1所述的基于增强学习的加热器具控制系统，其特征在于，状态生成模块会将得到的状态集通过聚类算法进行聚类，得到重新编码的状态集。

3.如权利要求1所述的基于增强学习的加热器具控制系统，其特征在于，所述增强学习网络选用DQN网络。

4.如权利要求1所述的基于增强学习的加热器具控制系统，其特征在于，卷积神经网络选用的算法为AlexNet或者VGG算法。

5.如权利要求1所述的基于增强学习的加热器具控制系统，其特征在于，所述状态生成模块和增强学习模块均设置在统一的FPGA芯片。