CN109099561B

CN109099561B - 温度控制方法、装置及系统

Info

Publication number: CN109099561B
Application number: CN201810915118.5A
Authority: CN
Inventors: 周立功; 陈熙引
Original assignee: Guangzhou Zhiyuan Electronics Co Ltd
Current assignee: Guangzhou Zhiyuan Electronics Co Ltd
Priority date: 2018-08-13
Filing date: 2018-08-13
Publication date: 2020-08-14
Anticipated expiration: 2038-08-13
Also published as: CN109099561A

Abstract

本发明涉及一种温度控制方法、装置及系统。所示温度控制方法，包括：接收受控环境温度检测信号，识别受控环境温度检测信号，得到当前检测温度值；若当前检测温度值在当前时刻允许的温度区间内，则根据当前检测温度值、当前时刻以及各时刻允许的温度区间，生成当前温度状态图；根据当前温度状态图和历史温度状态图集，通过预先训练好的神经网络模型，得到温度控制占空比，历史温度状态图集包括前N次温度检测生成的N张温度状态图；根据温度控制占空比，生成温度控制信号，温度控制信号用于调节受控环境的温度。神经网络模型通过识别多张温度状态图上温度与时刻的变化关系，得出最优的温度控制策略，减少温度波动，实现稳定高精度的温度控制效果。

Description

温度控制方法、装置及系统

技术领域

本发明涉及测量控制领域，特别是涉及一种温度控制方法、装置及系统。

背景技术

随着各产业的自动化工业化发展，在众多领域中都需要对温度进行控制。传统的温度控制方式包括PID温度控制和模糊温度控制。

PID温度控制系统是基于反馈的控制系统，它通过将测量温度与期望温度进行比较，根据测量温度与期望温度的偏差量来纠正系统的输出，执行温度调节控制。模糊温度控制利用模糊数学的思想，往往应用于复杂和难以精确描述的系统中，对测量温度与期望温度的偏差量和偏差变化率进行模糊化，并通过模糊控制规则得出温度控制输出，调节温度。

在温度控制的实现和研究过程中，发明人发现传统技术中至少存在如下问题：传统的PID温度控制系统的稳定参数经常需要人工凑试，并且会出现超调，温度控制不稳。模糊温度控制中的模糊控制规则由人为经验设定，很难与温度环境达到很好的匹配，也会引起控温不稳的情况。综上，现有的温度控制方式对温度的控制不稳定，经常出现温度波动，控制精度不高。

发明内容

基于此，有必要针对现有的温度控制方式对温度控制不稳定问题，提供一种温度控制方法、装置及系统。

一方面，本实施例提供一种温度控制方法，包括：

接收受控环境温度检测信号，识别受控环境温度检测信号，得到当前检测温度值；

若当前检测温度值在当前时刻允许的温度区间内，则根据当前检测温度值、当前时刻以及各时刻允许的温度区间，生成当前温度状态图；

根据当前温度状态图和历史温度状态图集，通过预先训练好的神经网络模型，得到温度控制占空比，历史温度状态图集包括前N次温度检测生成的N张温度状态图；

根据温度控制占空比，生成温度控制信号，温度控制信号用于调节受控环境的温度。

在其中一个实施例中，当前温度状态图的第一轴向与时间关联，当前温度状态图的第二轴向与温度关联，当前温度状态图上显示第一温度线、第二温度线和当前状态点；第一温度线沿第一轴向表征第一时段内各时刻允许的温度上限，第二温度线沿第一轴向表征第一时段内各时刻允许的温度下限，当前状态点在第一轴向上与当前时刻相应，当前状态点在第二轴向上与当前检测温度值相应；第一时段为从当前时刻开始经预设时长的时间段。

在其中一个实施例中，接收受控环境温度检测信号之前，还包括：

通过强化学习算法对神经网络模型进行训练。

在其中一个实施例中，根据当前温度状态图和历史温度状态图集，通过预先训练好的神经网络模型，得到温度控制占空比的过程包括：

将当前温度状态图和历史温度状态图集进行预处理，得到预处理后的图像数据；

根据预处理后的图像数据，通过预先训练好的神经网络模型，得到价值估计矩阵；

根据价值估计矩阵，得到温度控制占空比。

在其中一个实施例中，神经网络模型为CNN神经网络模型。

在其中一个实施例中，强化学习算法为DQN算法。

另一方面，本发明实施例还提供一种温度控制装置，包括：

检测温度值获取模块，用于接收受控环境温度检测信号，识别受控环境温度检测信号，得到当前检测温度值；

当前温度状态图生成模块，用于若当前检测温度值在当前时刻允许的温度区间内，则根据当前检测温度值、当前时刻以及各时刻允许的温度区间，生成当前温度状态图；

温度控制占空比确定模块，用于根据当前温度状态图和历史温度状态图集，通过预先训练好的神经网络模型，得到温度控制占空比，历史温度状态图集包括前N次温度检测生成的N张温度状态图；

温度控制信号生成模块，用于根据温度控制占空比，生成温度控制信号，温度控制信号用于调节受控环境的温度。

在其中一个实施例中，还包括：

神经网络模型训练模块，用于通过强化学习算法对神经网络模型进行训练。

再一方面，本发明实施例还提供一种温度控制系统，包括：温度传感器、控制装置和温度调节装置，

温度传感器对受控环境进行温度检测，输出受控环境温度检测信号至控制装置；

控制装置分别与温度传感器、温度调节装置电连接，用于识别受控环境温度检测信号，得到当前检测温度值，若当前检测温度值在当前时刻允许的温度区间内，则根据当前检测温度值、当前时刻以及各时刻允许的温度区间，生成当前温度状态图，根据当前温度状态图和历史温度状态图集，通过预先训练好的神经网络模型，得到温度控制占空比，历史温度状态图集包括前N次温度检测生成的N张温度状态图，根据温度控制占空比，生成温度控制信号，并发送温度控制信号至温度调节装置；

温度调节装置，根据温度控制信号，调节受控环境的温度。

在其中一个实施例中，温度调节装置为加热棒。

上述温度控制方法，通过将当前温度检测值和各时刻允许的温度区间，按时间维度，以图像形式呈现，在图像上展现时刻与温度两个维度的数据，并根据连续N+1次温度检测生成的温度状态图和预先训练好的神经网络模型，得到温度控制占空比。N+1张温度状态图显示温度在递进时刻上的连续变化，神经网络模型通过识别N+1张温度状态图上温度与时刻的变化关系，得出最优的温度控制策略，减少温度波动，实现稳定高精度的温度控制效果。

附图说明

图1为一个实施例中温度控制方法的流程示意图；

图2为一个实施例温度控制方法中生成的当前温度状态图；

图3为一个实施例温度控制方法中生成的另一时刻的当前温度状态图；

图4为另一个实施例中温度控制方法的流程示意图；

图5为一个实施例中根据当前温度状态图和历史温度状态图集，通过预先训练好的神经网络模型，得到温度控制占空比步骤的流程示意图；

图6为一个实施例中温度控制装置的结构框图；

图7为一个实施例中温度控制系统的结构框图。

具体实施方式

为了便于理解本发明，下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的首选实施例。但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使对本发明的公开内容更加透彻全面。

需要说明的是，当一个元件被认为是“连接”另一个元件，它可以是直接连接到另一个元件并与之结合为一体，或者可能同时存在居中元件。本文所使用的术语“安装”、“一端”、“另一端”以及类似的表述只是为了说明的目的。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。

如图1所示，本发明实施例提供一种温度控制方法，包括：

步骤S20，接收受控环境温度检测信号，识别受控环境温度检测信号，得到当前检测温度值；

其中，受控环境是根据温度控制方法应用的具体设备确定的，例如，温度控制方法应用于水箱温度控制系统中，用来控制水箱中水的温度，则受控环境就是水箱中的水。受控环境温度检测信号为温度检测设备根据对受控环境当前温度的检测，生成的电信号。

步骤S30，若当前检测温度值在当前时刻允许的检测温度区间内，则根据当前检测温度值、当前时刻以及各时刻允许的温度区间，生成当前温度状态图；

其中，各时刻允许的温度区间为若干个时刻与温度区间的关联数据，是一组预设数据，根据需要达到的温度控制效果，人为预设。这里指的各时刻是温度控制过程中的各时刻，起点为温度控制方法开始时的时刻。各时刻允许的温度区间包括当前时刻允许的温度区间。

具体的，根据预设的各时刻允许的温度区间和当前时刻，得到当前时刻允许的温度区间；判断当前检测温度值是否在当前时刻允许的温度区间内，若当前检测温度值在当前时刻允许的温度区间内，则根据当前检测温度值、当前时刻和各时刻允许的温度区间，生成当前温度状态图。当前温度状态图能够从时刻和温度两个维度上，反映当前检测温度与各时刻允许的温度区间的关系。

步骤S40，根据当前温度状态图和历史温度状态图集，通过预先训练好的神经网络模型，得到温度控制占空比，历史温度状态图集包括前N次温度检测生成的N张温度状态图；

具体的，根据当前温度状态图和历史温度状态图集，通过预先训练好的神经网络模型，进行下一步温度控制动作的判断，从多个控制占空比标签中选取最优的，得到温度控制占空比。

其中，历史温度状态图集为，根据当前次温度检测之前的N次温度检测，生成的N张温度状态图。例如，假设当前检测为第5次检测，N为3,则控制装置就根据当前温度状态图(即第5次检测生成的温度状态图)、第4次、第3次和第2次温度检测生成的温度状态图，通过预先训练好的神经网络模型，得到温度控制占空比。

步骤S50，根据温度控制占空比，生成温度控制信号，温度控制信号用于调节受控环境的温度。

本实施例应用在两次温度检测之间，当接收到受控环境温度检测信号，就开始进行对下一步温度控制动作的判断，得出温度控制占空比并生产温度控制信号，温度控制信号被执行之后，才会有下一次温度检测，并再次得到一个温度控制信号，照此循环实现温度的连续闭环控制。本实施例通过将当前温度检测值和各时刻允许的温度区间以图像形式呈现，在图像上展现时刻与温度两个维度的数据，并根据连续N+1次温度检测生成的温度状态图和预先训练好的神经网络模型，得到温度控制占空比。N+1张温度状态图显示温度在递进时刻上的连续变化，神经网络模型通过识别N+1张温度状态图上温度与时刻的变化关系，得出最优的温度控制策略，减少温度波动，实现稳定高精度的温度控制效果。

在一个实施例中，当前温度状态图的第一轴向与时间关联，当前温度状态图的第二轴向与温度关联，当前温度状态图上显示第一温度线210、第二温度线220和当前状态点230；第一温度线210沿第一轴向表征第一时段内各时刻允许的温度上限，第二温度线220沿第一轴向表征第一时段内各时刻允许的温度下限，当前状态点230在第一轴向上与当前时刻相应，当前状态点230在第二轴向上与当前检测温度值相应；第一时段为从当前时刻开始经预设时长的时间段。

其中，图像坐标系分为X轴和Y轴两个轴。本文中当前温度状态图的第一轴向可以是图像坐标系的X轴向也可以是图像坐标系的Y轴向。当第一轴向为图像坐标系的X轴向时，第二轴向为图像坐标系的Y轴向。当第一轴向为图像坐标系的Y轴向时，第二轴向为图像坐标系的X轴向。

具体的，当前温度状态图中像素的第一轴向坐标值与时刻关联，当前温度状态图中像素的第二轴向坐标值与温度值关联。第一轴向的显示范围为第一时段的各时刻，由当前时刻开始经预设时长结束。如图2所示，为一张当前温度状态图，第一轴向为X轴，第二轴向为Y轴。其中的第一温度线210，沿X轴方向，展示第一时段上各时刻允许的温度上限。第二温度线220，沿X轴方向，展示第一时段上各时刻允许的温度下限。当前状态点230的横坐标代表当前时刻，即第一轴向的起点值，当前状态点230的纵坐标代表当前检测温度值。

在一个实施例中，温度控制方法需要逐步控制受控环境的温度升高并稳定在60℃。各时刻允许的温度区间可以设置为，从起始时刻到T1时刻，允许温度区间在0℃至65℃之间，自T1时刻之后，则只允许温度区间在55℃至65℃之间。当前温度状态图的第一轴向为图像坐标系的X轴，第二轴向为图像坐标系的Y轴。

如图3所示，为本实施例中温度控制方法开始后生成第一张温度状态图，图中的黑色圆点即为当前状态点230，它的X轴坐标代表当前时刻，Y轴坐标代表当前检测温度值。图中的两条黑色线条表征第一时段内各时刻允许的温度区间，上方的一条是第一温度线210，代表第一时段内各时刻允许的温度上限，下方的一条是第二温度线220，代表第一时段内各时刻允许的温度下限。

如图2所示，为当前时刻大于T1时刻之后，生成的一张温度状态图，图中的黑色圆点与两条黑色线条的含义与图3相同。

在一个实施例中，如图4所示，获取当前检测温度值之前，还包括：

步骤S10，通过强化学习算法对神经网络模型进行训练。

具体的，强化学习是神经网络训练方法中的一种，强化学习主要包含四个元素，agent、环境状态s、动作a、奖励r。在本实施例中agent便是神经网络模型，环境状态s是受控环境的当前温度状态图和历史温度状态图集，动作a是是根据神经网络模型计算得到的温度控制占空比，奖励r是根据动作执行之后的温度和奖励规则得到的对本次动作的一个价值反馈，奖励规则为根据各时刻允许的温度区间预设的一个规则，例如，当本次动作执行之后，若受控环境的温度在该时刻允许的温度区间内，则奖励值为1；若受控环境的温度在该时刻允许的温度区间外，则奖励值为-1。

强化学习的过程是一个反复迭代的过程，以一次强化学习为例进行说明：agent(神经网络模型)根据第一时刻的环境状态s₁(第一时刻温度状态图和第一时刻的历史温度状态图集)在动作空间中选取一个动作a(温度控制占空比)作用于受控环境，受控环境接收该动作a之后，受控环境的温度变化，反馈变化后的第二时刻的环境状态s₂(第二时刻温度状态图和第二时刻的历史温度状态图集)和第一时刻动作a产生的奖励值r给到agent(神经网络模型)，agent(神经网络模型)根据奖励值更新动作a(温度控制占空比)的选择策略，输出下一个动作a(温度控制占空比)。动作空间为所有可选动作a的集合。

agent(神经网络模型)重复上述学习过程，逐渐从受控环境中获得知识，改进在不同环境状态下采取的动作a(温度控制占空比)的选择策略，使得训练好的神经网络模型能够适应受控环境的变化而给出合适的温度控制占空比。

优选的，神经网络模型可以是CNN神经网络模型。CNN神经网络模型的特征检测层通过训练数据进行学习，避免了人工处理的特征提取。强化学习算法可以是DQN(Deep QNetwork)算法。DQN算法对不同软件系统的通用性好。

在一个实施例中，如图5所示，根据当前温度状态图和历史温度状态图集，通过预先训练好的神经网络模型，得到温度控制占空比的过程包括：

步骤S41，将当前温度状态图和历史温度状态图集进行预处理，得到预处理后的图像数据；

步骤S42，根据预处理后的图像数据，通过预先训练好的神经网络模型，得到价值估计矩阵；

步骤S43，根据价值估计矩阵，得到温度控制占空比。

具体的，将当前温度状态图和历史温度状态图集一共N+1张温度状态图进行预处理，预处理的过程包括将N+1张温度状态图组合在一起，例如，在一个实施例中，一张温度状态图的尺寸为80×80像素，则组合后得到预处理后的状态图为80×80×(N+1)的图像数据。预处理的过程还可以包括，在将N+1张温度状态图组合之间，对它们分别进行灰度处理。根据预处理后的状态图，通过预先训练好的神经网络，得到价值估计矩阵。

价值评估矩阵是一个行矩阵，它的每一行的数值反映若采用这行对应的占空比作用于受控环境的价值评估。例如，将可选温度控制占空比量化为4个，分别为0％、25％、50％、75％。神经网络模型得到的价值估计矩阵[0.1，0.2，0.5，0.3]^T，则表示，采用0％的温度控制占空比的价值评估为0.1，采用50％的温度控制占空比的价值评估为0.5。这时最优的温度控制占空比的选择是50％。

在其中一个实施例中，根据价值估计矩阵得到温度控制占空比的过程包括：

查找价值估计矩阵中数值最大的元素，将数值最大的元素的下标除以价值估计矩阵的总行数，得到温度控制占空比。例如，根据神经网络模型得到价值估计矩阵[0.1，0.2，0.5，0.3，0.4]^T，找到数值最大的元素0.5,0.5的下标为2，总行数为5，则价值估计0.5对应的温度控制占空比为

即40％。

在一个实施例中，步骤S20之后还包括：

步骤S60，若当前检测温度值在当前时刻允许的温度区间之外，则结束温度控制。

当前检测温度值落在当前时刻允许的温度区间之外，表示温度控制方法未达到准确的温度控制效果，立即停止温度控制，以免受控环境温度进一步偏离允许的温度区间。

在一个具体实施例中，神经网络模型采用CNN神经网络模型，CNN神经网络模型的训练方法采用DQN(Deep Q Network)算法。那么，采用DQN算法训练CNN神经网络模型的过程可以由以下内容理解。

在训练开始之前，要预设DQN算法的参数。设置环境状态s为受控环境的当前温度状态图和历史温度状态图集；设置动作A是根据CNN神经网络模型计算得到的温度控制占空比；设置动作a的量化个数为5个，即将0％至100％的温度控制占空比等分分割为5个，CNN神经网络模型从量化好的5个温度控制占空比中选择最优的。制定奖励规则，当一个动作a作用于受控环境之后，若受控环境的温度在该时刻允许的温度区间内，则奖励值为1；若受控环境的温度在该时刻允许的温度区间外，则奖励值为-1，而且，一旦得到-1的奖励值，本次训练结束。

运用DQN算法训练CNN神经网络模型分为以下三个阶段进行。

观察期：

初始化CNN神经网络模型，在观察期因为CNN神经网络模型是一个初始化的网络模型，根据CNN神经网络模型得到的动作a也是随机的。

设置ε贪心策略为动作a的选择策略，可用式(1)表示：

根据不同概率采用CNN神经网络模型输出的最优温度控制占空比，或者随机生成一个在0％至100％之间的占空比，作为动作a作用于受控环境。

进行动作与状态的迭代，如图所示，为观察期的迭代过程示意图。若当前环境状态为s，根据ε贪心策略得出动作a，动作a作用于受控环境，环境状态改变，获得新的新环境状态为s′，动作a的奖励为r，组成(s，a，s′，r)存入存储区，用于下一阶段的CNN神经网络模型参数更新，根据新的环境状态s’，通过ε贪心策略得到下一步的动作a′，周而复始，直至迭代次数达到探索期。随迭代次数的增加逐步控制式(1)中的ε减小。

探索期：

迭代次数达到一定数目，进入探索期，探索期与观察期的唯一区别在于，探索期会根据抽样对CNN神经网络模型进行参数更新。

将上一环境状态s、动作a、新环境状态s′、奖励r，组成(s，a，s′，r)存入存储区，并且根据迭代次数的增加减小ε值。

从存储区抽取一定量的样本，对CNN神经网络进行更新。更新策略如下：

其中，s_j+1为当前环境状态，是执行当前动作的结果。r_j为当前动作的奖励值。Q(s_j+1,a′)是当前环境状态s_j+1的Q函数，表示环境状态为s_j+1时分别采用所有可选的动作a从当前CNN神经网络模型得到的价值评估。max_a′Q(s_j+1,a′)表示环境状态为s_j+1时，采用所有可选的动作a能得到的最大的价值评估。γ为折扣值。y_j为当前占空比的价值目标值，也是CNN网络训练的预测目标值。

采用梯度下降法最小化(y_j-Q(s_j,a_j))²更新CNN神经网络模型的参数。

根据新的环境状态s′和ε贪心策略选择下一步执行的动作a，以此循环迭代，直到迭代次数到达训练期。

训练期：

迭代次数达到一定数目，进入训练期，本阶段跟探索期的过程相同，只是在迭代过程中不再修改ε的值。ε的值经过前两个阶段已经很小，不再发生变化，在这个阶段CNN神经网络模型的参数随着迭代次数的增加趋于稳定。当受控环境的检测温度持续一定次数的迭代都在允许的温度区间内，则存储CNN神经网络模型参数，完成训练。

本发明实施例还提供一种温度控制装置，如图6所示，包括：

检测温度值获取模块620，用于接收受控环境温度检测信号，识别受控环境温度检测信号，得到当前检测温度值；

当前温度状态图生成模块630，用于若当前检测温度值在当前时刻允许的温度区间内，则根据当前检测温度值、当前时刻以及各时刻允许的温度区间，生成当前温度状态图；

温度控制占空比确定模块640，用于根据当前温度状态图和历史温度状态图集，通过预先训练好的神经网络模型，得到温度控制占空比，历史温度状态图集包括前N次温度检测生成的N张温度状态图；

温度控制信号生成模块650，用于根据温度控制占空比，生成温度控制信号，温度控制信号用于调节受控环境的温度。

在一个实施例中，还包括：

神经网络模型训练模块610，用于通过强化学习算法对神经网络模型进行训练。

关于温度控制装置的具体限定可以参见上文中对于温度控制方法的限定，在此不再赘述。上述温度控制装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

本发明实施例还提供一种温度控制系统，如图7所示，包括：温度传感器710、控制装置720和温度调节装置730，

温度传感器710对受控环境进行温度检测，输出受控环境温度检测信号至控制装置；

控制装置720分别与温度传感器710、温度调节装置730电连接，用于识别受控环境温度检测信号，得到当前检测温度值，若当前检测温度值在当前时刻允许的温度区间内，则根据当前检测温度值、当前时刻以及各时刻允许的温度区间，生成当前温度状态图，根据当前温度状态图和历史温度状态图集，通过预先训练好的神经网络模型，得到温度控制占空比，历史温度状态图集包括前N次温度检测生成的N张温度状态图，根据温度控制占空比，生成温度控制信号，并发送温度控制信号至温度调节装置；

温度调节装置730，根据温度控制信号，调节受控环境的温度。

在不同的应用场景下，温度调节装置730可以根据需要设置为不同的设备，在一个实施例中温度调节装置可以是加热棒，在另一个实施例中温度调节装置可以是换热器。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种温度控制方法，其特征在于，包括：

接收受控环境温度检测信号，识别所述受控环境温度检测信号，得到当前检测温度值；

若所述当前检测温度值在当前时刻允许的温度区间内，则根据所述当前检测温度值、当前时刻以及各时刻允许的温度区间，生成当前温度状态图；所述当前温度状态图的第一轴向与时间关联，所述当前温度状态图的第二轴向与温度关联，所述当前温度状态图上显示第一温度线、第二温度线和当前状态点；所述第一温度线沿所述第一轴向表征第一时段内各时刻允许的温度上限，所述第二温度线沿所述第一轴向表征所述第一时段内各时刻允许的温度下限，所述当前状态点在第一轴向上与所述当前时刻相应，所述当前状态点在第二轴向上与所述当前检测温度值相应；所述第一时段为从所述当前时刻开始经预设时长的时间段；

根据所述当前温度状态图和历史温度状态图集，通过预先训练好的神经网络模型，得到温度控制占空比，所述历史温度状态图集包括前N次温度检测生成的N张所述温度状态图，其中，通过强化学习算法对所述神经网络模型进行训练；

根据所述温度控制占空比，生成温度控制信号，所述温度控制信号用于调节所述受控环境的温度。

2.根据权利要求1所述的温度控制方法，其特征在于，所述根据所述当前温度状态图和历史温度状态图集，通过预先训练好的神经网络模型，得到温度控制占空比的过程包括：

将所述当前温度状态图和所述历史温度状态图集进行预处理，得到预处理后的图像数据；

根据所述预处理后的图像数据，通过预先训练好的神经网络模型，得到价值估计矩阵；

根据所述价值估计矩阵，得到温度控制占空比。

3.根据权利要求1所述的温度控制方法，其特征在于，所述神经网络模型为CNN神经网络模型。

4.根据权利要求1所述的温度控制方法，其特征在于，所述强化学习算法为DQN算法。

5.一种温度控制装置，其特征在于，包括：

检测温度值获取模块，用于接收受控环境温度检测信号，识别所述受控环境温度检测信号，得到当前检测温度值；

当前温度状态图生成模块，用于若所述当前检测温度值在当前时刻允许的温度区间内，则根据所述当前检测温度值、当前时刻以及各时刻允许的温度区间，生成当前温度状态图；所述当前温度状态图的第一轴向与时间关联，所述当前温度状态图的第二轴向与温度关联，所述当前温度状态图上显示第一温度线、第二温度线和当前状态点；所述第一温度线沿所述第一轴向表征第一时段内各时刻允许的温度上限，所述第二温度线沿所述第一轴向表征所述第一时段内各时刻允许的温度下限，所述当前状态点在第一轴向上与所述当前时刻相应，所述当前状态点在第二轴向上与所述当前检测温度值相应；所述第一时段为从所述当前时刻开始经预设时长的时间段；

温度控制占空比确定模块，用于根据所述当前温度状态图和历史温度状态图集，通过预先训练好的神经网络模型，得到温度控制占空比，所述历史温度状态图集包括前N次温度检测生成的N张所述温度状态图；

温度控制信号生成模块，用于根据所述温度控制占空比，生成温度控制信号，所述温度控制信号用于调节所述受控环境的温度；

神经网络模型训练模块，用于通过强化学习算法对所述神经网络模型进行训练。

6.根据权利要求5所述的温度控制装置，其特征在于，所述神经网络模型为CNN神经网络模型。

7.根据权利要求5所述的温度控制装置，其特征在于，所述强化学习算法为DQN算法。

8.一种温度控制系统，其特征在于，包括：温度传感器、控制装置和温度调节装置，

所述温度传感器对受控环境进行温度检测，输出受控环境温度检测信号至所述控制装置；

所述控制装置分别与所述温度传感器、所述温度调节装置电连接，用于识别所述受控环境温度检测信号，得到当前检测温度值，若所述当前检测温度值在当前时刻允许的温度区间内，则根据所述当前检测温度值、当前时刻以及各时刻允许的温度区间，生成当前温度状态图，根据所述当前温度状态图和历史温度状态图集，通过预先训练好的神经网络模型，得到温度控制占空比，所述历史温度状态图集包括前N次温度检测生成的N张所述温度状态图，根据所述温度控制占空比，生成温度控制信号，并发送所述温度控制信号至所述温度调节装置；其中，所述当前温度状态图的第一轴向与时间关联，所述当前温度状态图的第二轴向与温度关联，所述当前温度状态图上显示第一温度线、第二温度线和当前状态点；所述第一温度线沿所述第一轴向表征第一时段内各时刻允许的温度上限，所述第二温度线沿所述第一轴向表征所述第一时段内各时刻允许的温度下限，所述当前状态点在第一轴向上与所述当前时刻相应，所述当前状态点在第二轴向上与所述当前检测温度值相应；所述第一时段为从所述当前时刻开始经预设时长的时间段；通过强化学习算法对所述神经网络模型进行训练；

所述温度调节装置，根据所述温度控制信号，调节所述受控环境的温度。

9.根据权利要求8所述的温度控制系统，其特征在于，所述温度调节装置为加热棒。