CN117972433B

CN117972433B - 菇房温度预测模型的训练方法、菇房温度预测方法及装置

Info

Publication number: CN117972433B
Application number: CN202410363178.6A
Authority: CN
Inventors: 王明飞; 张馨; 单飞飞; 郑文刚; 陈晓丽; 孙维拓; 赵九霄; 王德群
Original assignee: Intelligent Equipment Technology Research Center of Beijing Academy of Agricultural and Forestry Sciences
Current assignee: Intelligent Equipment Technology Research Center of Beijing Academy of Agricultural and Forestry Sciences
Priority date: 2024-03-28
Filing date: 2024-03-28
Publication date: 2024-07-02
Anticipated expiration: 2044-03-28
Also published as: CN117972433A

Abstract

本发明提供一种菇房温度预测模型的训练方法、菇房温度预测方法及装置，属于人工智能技术领域，包括：将训练样本中的菇房温度标签分解为若干个模态分量，并根据复杂度对模态分量进行高低频分类，并由所有高频模态分量构建高频温度标签，由所有低频模态分量构建低频温度标签，分别对并联构成菇房温度预测模型的两个子模型进行训练。本发明通过将训练样本中的菇房温度标签依据分解后的模态分量的复杂度划分为高、低频温度标签，充分挖掘了训练样本数据中的重要特征和隐藏结构，再将两种标签分别用于训练并联构成菇房温度预测模型的两个子模型，使模型能够更好学习和捕捉训练样本，模型训练的收敛速度更快，得到的预测模型精度更高、预测结果更准确。

Description

菇房温度预测模型的训练方法、菇房温度预测方法及装置

技术领域

本发明涉及人工智能技术领域，尤其涉及一种菇房温度预测模型的训练方法、菇房温度预测方法及装置。

背景技术

在食用菌的种植过程中，菇房温度对食用菌养菌和出菇过程非常重要。食用菌的生命活动依赖于一系列功能蛋白，而蛋白活性与温度的变化密切相关。当菇房内温度超过食用菌适宜上限温度时，菌丝长势弱，容易遭受病虫害的侵袭，一旦超过其耐受极限，菌丝体受伤后将不可逆转；当菇房内温度低于适宜下限温度则生长缓慢或停止生长。因此，菇房温度精准控制是食用菌种植过程中必不可少的一环。

目前的菇房温度精准控制方法一般是以各种人工智能算法作为初始算法构建菇房温度预测模型，并利用历史菇房温度数据对菇房温度预测模型进行训练，最后将训练完成的菇房温度预测模型用于实际的菇房温度预测，从而对菇房温度进行精准控制。

在菇房温度预测模型的过程中，如果不对历史菇房温度数据进行一定处理，而仅仅只是重复地将历史菇房温度数据输入至模型中进行训练，那么想训练得到一个具有更好效果的菇房温度预测模型，往往就需要采集更多的历史菇房温度数据。并且其中一些具有明显特征的历史菇房温度数据的采集往往代表着食用菌种植的失败，使得模型训练的经济成本大大增加。

因此，有必要提供一种菇房温度预测模型的训练方法，能够以更少的历史菇房温度数据，训练得到具有更好效果的菇房温度预测模型。

发明内容

本发明提供一种菇房温度预测模型的训练方法、菇房温度预测方法及装置，用以解决现有技术中重复将未经处理的历史菇房温度数据用于训练菇房温度预测模型的缺陷。

第一方面，本发明提供一种菇房温度预测模型的训练方法，包括：所述菇房温度预测模型是由第一预测子模型和第二预测子模型并联构成的，所述训练方法包括：

获取训练样本集，所述训练样本集包括多个训练样本，每个所述训练样本包括一特征向量样本和菇房温度标签；所述特征向量样本是基于一历史采样周期的菇房环境特征数据确定的，所述菇房温度标签是所述历史采样周期的下一采样周期的菇房温度数据；

将所述菇房温度标签分解为若干个模态分量后，计算每个所述模态分量的复杂度；

根据所述复杂度，将所有所述模态分量进行高低频分类，并由所有的高频模态分量构建高频温度标签，以及由所有的低频模态分量构建低频温度标签；

利用所述特征向量样本和所述高频温度标签训练第一预测子模型，并利用所述特征向量样本和所述低频温度标签训练第二预测子模型。

根据本发明提供的一种菇房温度预测模型的训练方法，针对任一所述模态分量，所述复杂度的计算包括以下步骤：

计算所述模态分量所有序列值的平均值；

将所有序列值中大于所述平均值的赋值为1，将小于所述平均值的赋值为0，得到所述模态分量对应的二进制序列；

计算所述二进制序列的复杂度，将所述二进制序列的复杂度作为所述模态分量的复杂度，所述二进制序列的复杂度是基于所述二进制序列中相邻数值构成的不同子序列的数量确定的。

根据本发明提供的一种菇房温度预测模型的训练方法，所述计算所述二进制序列的复杂度，包括：

设所述二进制序列为，所述二进制序列的复杂度为，中间量，其中；

设为0，和为空字符，的初始值为1；

步骤1，判断是否属于序列，若属于，执行步骤2，若不属于，则执行步骤3；

步骤2，令；

步骤3，令，为空字符；

迭代执行步骤1至步骤3，直至。

根据本发明提供的一种菇房温度预测模型的训练方法，所述根据所述复杂度，将所有所述模态分量进行高低频分类，包括：

根据所述复杂度，对所有所述模态分量从小到大进行排序，得到模态分量列表；

将所述模态分量列表中各模态分量按照排列顺序逐次累加，获取累计复杂度；

计算所述累计复杂度与所有模态分量的总复杂度之间的比值；

确定所述比值大于预设临界参数时的累计复杂度为目标累计复杂度；

确定所述模态分量列表中与所述目标累计复杂度计算相关的所有模态分量为高频模态分量，否则确定为低频模态分量。

根据本发明提供的一种菇房温度预测模型的训练方法，将所述菇房温度标签分解为若干个模态分量之前，还包括：

以对所述菇房温度标签进行变分模态分解的包络熵值、分解后的重构误差和所述模态分量的分解数量之间的加权和最小为目标函数；

设置麻雀搜索算法的种群数量、迭代次数、所述分解数量的上下限和惩罚系数，对所述目标函数进行迭代寻优，获取所述分解数量的最优解。

根据本发明提供的一种菇房温度预测模型的训练方法，所述菇房温度预测模型的损失函数是基于平均绝对误差和热平衡物理模型的损失函数确定的；

所述热平衡物理模型的损失函数，是基于所述菇房温度预测模型的输出结果和所述历史采样周期内的菇房平均温度确定的；

所述菇房温度预测模型的输出结果为所述第一预测子模型的输出结果和所述第二预测子模型的输出结果之和；

所述菇房平均温度是基于所述历史采样周期内菇房的整体热量变化、室内空气定压比热容和室内空气总质量确定的；

所述整体热量变化是基于所述历史采样周期内菇房的热通量、菌菇呼吸产热量和空调供热量确定的。

根据本发明提供的一种菇房温度预测模型的训练方法，所述菇房温度预测模型的损失函数的计算公式为：

；

所述热平衡物理模型的损失函数的计算公式为：

；

所述历史采样周期内的菇房平均温度的计算公式为：

；

其中，是所述菇房温度预测模型的损失函数，是所述平均绝对误差，是所述热平衡物理模型的损失函数，为拉格朗日乘子，是所述第一预测子模型的输出结果，是所述第二预测子模型的输出结果，是所述历史采样周期内的菇房平均温度，为所述历史采样周期，为预先设定的误差项；是通过传感器采集的所述历史采样周期的上一历史采样周期的菇房温度数据，是所述历史采样周期内菇房的热通量，是所述历史采样周期内的菌菇呼吸产热量，是所述历史采样周期内的空调供热量，是所述历史采样周期内通过门缝逸散量、灯光和新风带来的室内热量，是室内空气定压比热容，单位为，是室内空气总质量，单位为。

根据本发明提供的一种菇房温度预测模型的训练方法，所述菇房环境特征数据是对多种菇房环境数据进行筛选后得到的；

相应的，对所述多种菇房环境数据进行筛选，包括：

将所述菇房环境特征数据输入至重要性评价模型，得到每种所述菇房环境特征数据的重要性评价结果；

将所述菇房环境特征数据输入至贡献度评价模型，得到每种所述菇房环境特征数据的贡献度评价结果；

根据所述重要性评价结果和所述贡献度评价结果，确定所述菇房环境特征数据；

所述重要性评价模型是基于Brouta算法的评价模型，所述贡献度评价模型是基于SHAP值的评价模型。

第二方面，本发明还提供一种菇房温度预测方法，包括：获取当前采样周期的菇房环境特征数据；

将所述菇房环境特征数据输入至菇房温度预测模型，输出所述当前采样周期的下一采样周期的菇房温度预测结果；

所述菇房温度预测模型是基于上述任一种所述的菇房温度预测模型的训练方法训练得到的。

第三方面，本发明还提供一种菇房温度预测装置，包括：

数据获取单元，用于获取当前采样周期的菇房环境特征数据；

温度预测单元，用于将所述菇房环境特征数据输入至菇房温度预测模型，输出所述当前采样周期的下一采样周期的菇房温度预测结果；

第四方面，本发明提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述菇房温度预测模型的训练方法或所述菇房温度预测方法。

第五方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述菇房温度预测模型的训练方法或所述菇房温度预测方法。

本发明提供的菇房温度预测模型的训练方法、菇房温度预测方法及装置，通过将训练样本中的菇房温度标签依据分解后的模态分量的复杂度划分为高、低频温度标签，充分挖掘了训练样本数据中的重要特征和隐藏结构，再将两种标签分别用于训练并联构成菇房温度预测模型的两个子模型，使模型能够更好学习和捕捉训练样本，模型训练的收敛速度更快，得到的预测模型精度更高、预测结果更准确。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的菇房温度预测模型的训练方法的流程示意图；

图2是本发明提供的计算模态分量的复杂度的流程示意图；

图3是本发明提供的模态分量进行高低频分类的流程示意图；

图4是本发明提供的菇房温度预测方法的流程示意图；

图5是本发明提供的菇房温度预测装置的结构示意图；

图6是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在本发明的描述中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

本发明中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

下面结合图1-图6描述本发明所提供的菇房温度预测模型的训练方法、菇房温度预测方法及装置。

图1是本发明提供的菇房温度预测模型的训练方法的流程示意图，如图1所示，包括但不限于以下步骤：

步骤101：获取训练样本集。

其中，所述训练样本集包括多个训练样本，每个所述训练样本包括一特征向量样本和菇房温度标签；所述特征向量样本是基于一历史采样周期的菇房环境特征数据确定的，所述菇房温度标签是所述历史采样周期的下一采样周期的菇房温度数据。

其中，采样周期是指在菇房环境特征数据获取的周期性过程中，对于构成一个特征向量样本中任一要素（即任一菇房环境特征数据），或者对于一个菇房温度标签，从其第一个信号到最后一个信号之间的时间周期。

以菇房温度标签为例，设采样周期为1分钟，温度传感器采集数据信号的频次为0.6秒/次，在1分钟内，温度传感器能够采集100次数据信号。相应地，一个菇房温度标签也就是由100个温度数据信号组成的一个时间序列数据。

需要说明的是，采样周期可以根据具体的温度预测模型训练需要设置为30秒、1分钟、2分钟、5分钟等等，本发明对此不做限制。

其中，菇房环境特征数据包括但不限于菇房外温度数据、太阳辐射数据、菇房内空调开启时长数据、新风开启时长数据、室内CO₂浓度数据、热通量数据和菇房温度数据等数据中的一种或多种。

进一步地，菇房外温度数据可以通过设置在菇房外的温度传感器监测采集；菇房内空调开启时长数据和新风开启时长数据可在空调开启和新风开启的历史记录中获取；室内CO₂浓度数据可通过设置在菇房内的CO₂浓度传感器监测采集。

需要说明的是，用于采集菇房外温度数据的温度传感器包括但不限于热敏电阻温度传感器、热电偶温度传感器、红外线温度传感器等温度传感器的一种或多种；用于采集室内CO₂浓度数据的CO₂浓度传感器包括但不限于红外线传感器、光学散射传感器、电化学传感器、纳米材料传感器等CO₂传感器的一种或多种，本发明对此不做限制。

太阳辐射数据是指菇房所在地的太阳辐射数据，可以通过气象机构的数据接口、卫星遥感数据服务提供商等途径获取到菇房所在地的历史太阳辐射数据和实时太阳辐射数据。

热通量数据是指一采样周期内，从菇房室外传导至菇房室内的热能，具体可以使用热流计、热板传感器、热流计算机等传感器设备采集获取。

与菇房外温度数据类似的是，菇房温度数据可以通过设置在菇房内的温度传感器监测采集。

在一实施例中，根据菇房内床架的数量和摆放位置布设温度传感器，在层层摆放的每两个床架之间均布设温度传感器。

相应地，将各个温度传感器在同一采样周期内采集到的菇房温度数据的平均值作为该采样周期内的菇房温度数据。

在一实施例中，对采集到的菇房环境特征数据进行预处理，包括但不限于缺失值线性插值法、异常值均值法、数据归一化Max-Min法等等。

具体地，一个训练样本集中包括多个训练样本，每个训练样本包括一个由某一历史采样周期内的多个菇房环境特征数据组成的特征向量样本，以及由该历史采样周期的下一采样周期的菇房温度数据构成的菇房温度标签。其中，某一历史采样周期内的每个菇房环境特征数据也即该特征向量样本的一个要素。

步骤102：将所述菇房温度标签分解为若干个模态分量后，计算每个所述模态分量的复杂度。

其中，复杂度是以计算机语言的长度和复杂性作为度量来描述每个模态分量的指标。

具体地，菇房温度标签是温度传感器在一个采样周期内采集到的菇房温度信号的集合，也即一个时间序列数据，使用信号分解技术，将每一训练样本中的菇房温度标签分解为若干个模态分量，每个模态分量也即菇房温度标签在某一频率的对应信号。分解菇房温度标签后，还计算每个模态分量的复杂度，并将该复杂度用于后续的菇房温度预测模型的训练过程。

需要说明的是，分解菇房温度标签的信号分解技术包括但不限于小波变换（Wavelet Transform）、经验模态分解（Empirical Mode Decomposition，EMD）、傅里叶分析（Fourier Analysis）、变分模态分解（Variational Mode Decomposition，VMD）等技术中的一种或多种，本发明对此不做限制。

步骤103：根据所述复杂度，将所有所述模态分量进行高低频分类，并由所有的高频模态分量构建高频温度标签，以及由所有的低频模态分量构建低频温度标签。

具体地，在计算得到所有模态分量的复杂度之后，依据一定的分类方法，将所有模态分量进行高低频分类，被分类为高频的所有模态分量用于构建高频温度标签，被分类为低频的所有模态分量用于构建低频温度标签。

步骤104：利用所述特征向量样本和所述高频温度标签训练第一预测子模型，并利用所述特征向量样本和所述低频温度标签训练第二预测子模型。

其中，第一预测子模型和第二预测子模型共同并联构成菇房温度预测模型。

具体地，在训练第一预测子模型和训练第二预测子模型时，所利用的特征向量样本是相同的，均为上述由某一历史采样周期内的多个菇房环境特征数据组成的特征向量样本。不过，在训练第一预测子模型时，每一训练样本中的特征向量样本所对应的标签为菇房温度标签分解后确定的高频温度标签；而在训练第二预测子模型时，每一训练样本中的特征向量样本所对应的标签为菇房温度标签分解后确定的低频温度标签。

本发明提供的菇房温度预测模型的训练方法，通过将训练样本中的菇房温度标签依据分解后的模态分量的复杂度划分为高、低频温度标签，充分挖掘了训练样本数据中的重要特征和隐藏结构，再将两种标签分别用于训练并联构成菇房温度预测模型的两个子模型，使模型能够更好学习和捕捉训练样本，模型训练的收敛速度更快，得到的预测模型精度更高、预测结果更准确。

当充分挖掘训练样本数据中的重要特征和隐藏结构，使得菇房温度预测模型训练的收敛速度变快后，训练模型所需的数据也就越少，需要采集的具有明显特征的历史菇房环境特征数据也就越少，降低了菇房温度预测模型训练的经济成本，更有利于利用菇房温度预测模型在精准控制菇房温度中的推广应用。

图2是本发明提供的计算模态分量的复杂度的流程示意图，如图2所示，针对任一所述模态分量，所述复杂度的计算包括但不限于以下步骤：

步骤201：计算所述模态分量所有序列值的平均值。

具体地，每个训练样本中的菇房温度标签是温度传感器在一个采样周期内采集到的多个数据信号的集合，每个数据信号即一个序列值，共同构成一个时间序列数据。将菇房温度标签分解为若干个模态分量之后，每个模态分量也就对应菇房温度标签在某一频率的时间序列数据。对于一个模态分量而言，其任一序列值也就对应温度传感器在该时刻采集的数据信号在前述频率上的取值。

进一步地，在计算任一模态分量的复杂度时，首先计算该模态分量中所有序列值的平均值。

步骤202：将所有序列值中大于所述平均值的赋值为1，将小于所述平均值的赋值为0，得到所述模态分量对应的二进制序列。

具体地，计算该模态分量中所有序列值的平均值后，根据序列值的时间先后顺序，将每一序列值与平均值作比较，将大于平均值的序列值赋值为1，将小于平均值的序列值赋值为0，直至将模态分量中的所有序列值重新赋值。

例如，设一个模态分量中包含10个序列值，分别为“0123456789”，计算该10个序列值的平均值得到平均值为4.5，将其中大于平均值4.5的序列值赋值为1，将小于平均值4.5的序列值赋值为0，最后得到该模态分量对应的二进制序列为“0000011111”。

在另一实施例中，针对任一所述模态分量，在计算所述模态分量的复杂度时，计算所述模态分量所有序列值的平均值，将所有序列值中与所述平均值的标准差大于预设阈值的序列值赋值为1，将所有序列值中与所述平均值的标准差小于预设阈值的序列值赋值为0。

步骤203：计算所述二进制序列的复杂度，将所述二进制序列的复杂度作为所述模态分量的复杂度，所述二进制序列的复杂度是基于所述二进制序列中相邻数值构成的不同子序列的数量确定的。

具体地，将模态分量对应的时间序列数据转换为二进制序列后，基于二进制序列中相邻数值构成的不同子序列的数量确定该二进制序列的复杂度，并将计算得到的复杂度作为模态分量的复杂度。对于菇房温度标签分解后的若干个模态分量，均可以使用这一方法计算所有模态分量各自的复杂度。

在另一实施例中，计算二进制序列复杂度的方法包括但不限于基于二进制序列的熵、自信息、重复子序列的数量和长度、重复模式和信息冗余、符号近似化等方法。

基于上述实施例，作为一种可选的实施例，所述计算所述二进制序列的复杂度，包括：

设为0，和为空字符，的初始值为1；

步骤2，令；

步骤3，令，为空字符；

迭代执行步骤1至步骤3，直至。

本发明提供的菇房温度预测模型的训练方法，在计算分解后的模态分量的复杂度时，首先根据模态分量中每个序列值与所有序列值的平均值的大小关系，将大于平均值的序列值赋值为1，将小于平均值的序列值赋值为0，从而将模态分量转换为反映菇房温度标签某一频率的特征在一定时期内波动情况的二进制序列，充分挖掘了菇房温度标签中的重要特征和隐藏结构，然后基于二进制序列中相邻数值构成的不同子序列的数量确定二进制序列的复杂度，并将该复杂度作为后续模态分量进行高低频分类的依据，能够使模态分量的高低频分类更为准确，促进菇房温度预测模型训练的收敛速度变快。

图3是本发明提供的模态分量进行高低频分类的流程示意图，如图3所示，所述根据所述复杂度，将所有所述模态分量进行高低频分类，包括但不限于：

步骤301：根据所述复杂度，对所有所述模态分量从小到大进行排序，得到模态分量列表；

步骤302：将所述模态分量列表中各模态分量按照排列顺序逐次累加，获取累计复杂度；

步骤303：计算所述累计复杂度与所有模态分量的总复杂度之间的比值；

步骤304：确定所述比值大于预设临界参数时的累计复杂度为目标累计复杂度；

步骤305：确定所述模态分量列表中与所述目标累计复杂度计算相关的所有模态分量为高频模态分量，否则确定为低频模态分量。

具体地，本实施例提供的菇房温度预测模型的训练方法基于模态分量的累计复杂度对所有模态分量进行高低频分类。

首先，根据计算得到的每一模态分量对应二进制序列的复杂度大小，对所有模态分量从小到大进行排序，得到模态分量列表。

然后，计算每个模态分量的累计复杂度，按照各模态分量在模态分量列表中的排列顺序逐次累加，计算每个模态分量的累计复杂度，即将每个模态分量的复杂度与排列在该模态分量之前的所有模态分量的复杂度叠加之和，作为该模态分量的累加复杂度。

接着，将所有模态分量的复杂度之和作为总复杂度，并计算模态分量列表中每一模态分量的累计复杂度与总复杂度之间的比值。

再然后，将累计复杂度与总复杂度之间的比值大于预设临界参数的模态分量作为目标模态分量，目标模态分量对应的累计复杂度为目标累计复杂度。

最后，将目标累计复杂度对应的所有目标模态分量作为高频模态分量，其他模态分量则确定为低频模态分量。

在一实施例中，若有多个模态分量的复杂度相同，则按照模态分量在分解时所对应的频率从低到高进行排列，此处所指的频率是指使用信号分解技术分解菇房温度标签时，每个模态分量所对应的频率。一般而言，若模态分量所对应的频率越高，该模态分量在采样周期内的重复波动越多、越剧烈；若模态分量所对应的频率越低，该模态分量在采样周期内则倾向于长期趋势。

表1是本发明提供的模态分量列表的示例表，如表1所示，设某一菇房温度标签分解为模态分量A、模态分量B、模态分量C和模态分量D，四个模态分量分别对应的复杂度是1、2、3和3，模态分量A的累计复杂度为1；模态分量B的累计复杂度为模态分量A和模态分量B的复杂度之和，即为3；模态分量C的累计复杂度为模态分量A、模态分量B和模态分量C的复杂度之和，即为6；模态分量D的累计复杂度为模态分量A、模态分量B、模态分量C和模态分量D的复杂度之和，即为9。其中，所有模态分量的总复杂度为9。

表1 模态分量列表

进一步地，假设预设临界参数为0.5。通过计算可得，各个模态分量与所有模态分量的总复杂度之间的比值分别为0.111、0.333、0.667和1，比值大于预设临界参数0.5的模态分量有模态分量C和模态分量D。因此，将模态分量C和模态分量D作为高频模态分量，将模态分量A和模态分量B作为低频模态分量。

进一步地，由模态分量C和模态分量D构建高频温度标签，用于训练菇房温度预测模型的第一预测子模型，由模态分量A和模态分量B构建低频温度标签，用于训练菇房温度预测模型的第二预测子模型。

本发明提供的菇房温度预测模型的训练方法，根据模态分量的复杂度大小构建模态分量列表，并基于该模态分量列表计算每个模态分量的累计复杂度，还计算每一累计复杂度与总复杂度之间的比值，由比值大于预设临界参数的高频模态分量构建训练第一预测子模型的高频温度标签，相应地则由其他低频模态分量构建训练第二预测子模型的高频温度标签，也即将训练样本输入模型进行训练之前，就使用基于复杂度的数据处理方式将菇房温度标签最终分解为一个高频标签和一个低频温度标签，进一步挖掘了训练样本中的数据的重要特征和隐藏结构，能够提高菇房温度预测模型训练的收敛速度，减少模型训练所需的数据样本，以最终实现使用更少的历史菇房温度数据，训练得到具有更好效果的菇房温度预测模型。

基于上述实施例，作为一种可选的实施例，将所述菇房温度标签分解为若干个模态分量之前，还包括：

其中，变分模态分解（Variational Mode Decomposition，VMD）是一种信号处理技术，用于将信号分解为多个局部模态函数，通过迭代优化的方式，将信号分解为具有不同频率和振幅的模态分量，每个模态分量代表了信号中的一个局部特征或成分，有助于进一步的信号分析和应用。

其中，麻雀搜索算法（Sparrow Search Algorithm，SSA）是一种基于自然界中麻雀觅食行为的、用于解决优化问题的启发式优化算法，在搜索过程中，每只“麻雀”代表一个潜在解，通过模拟麻雀在寻找食物时的觅食行为（如觅食、追逐和信息交流等等），在不断迭代的过程中，“麻雀”根据个体搜索和群体协作来调整自身位置，以通过群体协作和信息交流找到最优解。

在一实施例中，以对所述菇房温度标签进行变分模态分解的包络熵值、分解后的重构误差和所述模态分量的分解数量之间的加权和最小为目标函数的公式如下：

；(1)

其中，为目标函数，为对所述菇房温度标签进行变分模态分解的包络熵值，为的加权系数，为分解后的重构误差，使用均方根差计算得到，为的加权系数，为所述模态分量的分解数量，为的加权系数。

作为一种可选的实施例，在设置麻雀搜索算法的种群数量、迭代次数、所述分解数量的上下限和惩罚系数之后，对所述目标函数进行迭代寻优，以获取所述分解数量的最优解的步骤包括但不限于：

将模态分量分解数量的上下限、惩罚系数的上下限输入至麻雀搜索算法，根据麻雀个体位置获取由一个分解数量和一个惩罚系数构成的组合参数，并结合变分模态分解的结果计算目标函数值，然后进行排序，寻找分解数量和惩罚系数的参数组合中的最优个体和最差个体。其中，最优个体也就是使目标函数最小的分解数量和惩罚系数的参数组合，最差个体也就是使目标函数最大的分解数量和惩罚系数的参数组合。

更新发现者、追随者、警戒者的位置，再计算目标函数值，并更新麻雀位置形成新种群，判断是否达到最大迭代次数，若没有达到最大迭代次数，迭代计数器自动加一，并迭代执行从更新发现者、追随者、警戒者的位置至判断是否达到最大迭代次数的步骤，直到达到最大迭代次数，从而获取到分解数量的最优解以及惩罚系数的最优解。

在一实施例中，设麻雀搜索算法中的种群数量为50，迭代次数设置为100，警戒者比例为总种群的10%，模态分量的分解数量的上下限为[1，10]，惩罚系数的上下限约束为[1000,3000]，以上述公式(1)为目标函数。

在一实施例中，所述分解数量的最优解为4。

在另一些实施例中，还可以使用遗传算法（Genetic Algorithm，GA）、粒子群优化算法（Particle Swarm Optimization，PSO）、模拟退火算法（Simulated Annealing，SA）、蚁群算法（Ant Colony Optimization，ACO）、差分进化算法（Differential Evolution，DE）等全局寻优算法对目标函数进行迭代寻优，以最终获取分解数量的最优解。

本发明提供的菇房温度预测模型的训练方法，在将菇房温度标签分解为若干个模态分量之前，先确定分解后的模态分量分解数量的最优解，根据变分模态分解的包络熵值、分解后的重构误差和模态分量的分解数量之间的加权和为目标函数，以目标函数值最小为目的，利用麻雀搜索算法进行迭代寻优，从而获取分解数量的最优解。在之后根据最优解对菇房温度标签进行分解时，所获得的各个模态分量能够良好表现菇房温度标签在某一频率的重要特征和结构，再进一步计算各个模态分量的复杂度时也更加准确，使得菇房温度标签重构后的高频温度标签和低频温度标签的特征更为明显，有助于提升菇房温度预测模型训练过程的收敛速度。

基于上述实施例，作为一种可选的实施例，所述菇房温度预测模型的损失函数是基于平均绝对误差和热平衡物理模型的损失函数确定的；

其中，平均绝对误差是指数据模型的输出值与真实值之间的偏差的绝对值的平均，能够准确反映数据模型实际预测误差，此处的数据模型是指通过机器学习或统计方法从输入的菇房环境特征数据中学习特征和模式，并进行预测的模型；物理模型则是基于已知的物理规律和方程来构建的模型，依赖于对菇房温度系统物理性质和行为的理解。

进一步地，热平衡物理模型是指基于引发菇房内部热量变化路径而构建的物理模型。

一般而言，菇房内部热量变化的路径包括四种：（1）菇房内环境通过围护结构与外界环境产生热交换；（2）菌菇生长呼吸作用产热；（3）空调的供冷/热；（4）通过门缝逸散量、灯光、新风等交换的热量。

因此，历史采样周期内菇房的整体热量变化可以根据历史采样周期内菇房的热通量、菌菇呼吸产热量和空调供热量确定，并结合室内空气定压比热容和室内空气总质量确定菇房的平均温度。

其中，室内空气定压比热容是指菇房内的空气在恒定压力下，单位质量空气温度升高时所吸收或释放的热量，以通过分子平均动能计算得出；室内空气总质量是指菇房内的空气总质量，一般可以根据菇房的体积以及菇房室内空气密度的乘积确定。

在一实施例中，由于历史采样周期内通过门缝逸散量、灯光和新风等带来的室内热量较小，在计算中可以忽略。

基于上述实施例，作为一种可选的实施例，所述菇房温度预测模型的损失函数的计算公式为：

；(2)

所述热平衡物理模型的损失函数的计算公式为：

；(3)

所述历史采样周期内的菇房平均温度的计算公式为：

；(4)

其中，是所述菇房温度预测模型的损失函数，是平均绝对误差，是所述热平衡物理模型的损失函数，为拉格朗日乘子，是所述第一预测子模型的输出结果，是所述第二预测子模型的输出结果，是所述历史采样周期内的菇房平均温度，为所述历史采样周期，为预先设定的误差项；是通过传感器采集的所述历史采样周期的上一历史采样周期的菇房温度数据，是所述历史采样周期内菇房的热通量，是所述历史采样周期内的菌菇呼吸产热量，是所述历史采样周期内的空调供热量，是所述历史采样周期内通过门缝逸散量、灯光和新风等带来的室内热量，是室内空气定压比热容，单位为，是室内空气总质量，单位为。

在一实施例中，所述历史采样周期内菇房的热通量的计算公式如下：

；(5)

其中，是所述历史采样周期内菇房的热通量，是所述历史采样周期内菇房室外经围护结构传递到室内的热通量，可由传感器直接测得，是菇房受热表面积。

在一实施例中，所述历史采样周期内的空调供热量的计算公式如下：

；(6)

其中，是所述历史采样周期内的空调供热量，是所述历史采样周期内的空调开启时长，单位为分钟，是空调系统的额定功率，单位为瓦特。

在一实施例中，历史采样周期内的菌菇呼吸产热量遵循食用菌在呼吸过程中的能量转换规律，即食用菌呼吸过程进行葡萄糖的有氧分解时，能量利用率约为40%，其余能量以热能形式释放。

在一实施例中，预先设定的误差项的取值为0.5。

在一实施例中，遵循平均绝对误差和热平衡物理模型的损失函数应保持相同尺度的原则，拉格朗日乘子的取值为0.01。通过拉格朗日变换和引入拉格朗日乘子，可以将整个损失函数变成无条件约束形式。

目前的菇房温度预测模型训练方法在确定损失函数时，多通过基于机器学习算法的数字模型的平方损失函数、平均绝对误差、Huber损失或均方误差等单一指标确定。

而本发明提供的菇房温度预测模型的训练方法，在确定菇房温度预测模型时，综合考虑数字模型的评价指标和菇房内部热量变化的热平衡物理模型，将与菇房热量相关的物理知识规则与预测模型常用的机器学习方法结合在一起，使得菇房温度预测模型的改进方向可以通过菇房物理知识规则解释，首先增强了菇房温度预测模型的可解释性；并且，在损失函数中引入已知的物理知识规则能够降低预测模型对于数据的强依赖，在一定程度上提升预测模型的可迁移性能，实现菇房在短时间内的高精度温度预测，并最终实现菇房温度的精准调控。

基于上述实施例，作为一种可选的实施例，所述菇房环境特征数据是对多种菇房环境数据进行筛选后得到的；

相应的，对所述多种菇房环境数据进行筛选，包括：

其中，Brouta算法是一个基于随机森林分类算法的包装器，能够从采集的多种菇房环境数据中筛选出所有与菇房温度具有相关性的菇房环境特征数据，也即对菇房环境数据进行重要性评价，并从中筛选出满足重要性条件的菇房环境特征数据；SHAP值是一种通过考虑每个特征与其他特征可能的交互作用，考虑每个特征对于模型预测结果的贡献度，从而更加全面地对特征的重要性进行解释和评估的方法。

在一实施例中，所述菇房环境数据为历史采样周期内菇房外温度数据、太阳辐射数据、菇房内空调开启时长数据、新风开启时长数据、室内CO₂浓度数据、热通量数据和菇房温度数据；所述菇房环境特征数据为历史采样周期内的菇房温度数据、菇房内空调开启时长数据、室内CO₂浓度数据和热通量数据。

具体地，使用基于Brouta算法的评价模型和基于SHAP值的评价模型对上述菇房环境数据进行筛选。

首先，基于Brouta算法的评价模型在对菇房环境数据进行重要性评价时，使用Confirmed、Tentative、Rejected三种类型对每个菇房环境数据的重要性进行定性评价。

经过评价后，除新风开启时长数据的定性评价为Tentative外，其余所有特征均为Confirmed。

然后，基于SHAP值的评价模型在对菇房环境数据进行贡献度评价时，计算每个菇房环境数据对于模型预测结果的贡献度，也即计算每个菇房环境数据对于模型预测结果的影响程度，并通过可视化等方式来解释模型的预测结果。

经过评价后，各个菇房环境数据对于菇房温度预测的贡献度从大到小依次为：菇房温度数据、菇房内空调开启时长数据、热通量数据、菇房外温度数据、室内CO₂浓度数据、太阳辐射数据、新风开启时长数据。

对新风开启时长数据而言，由于新风每小时开启时长约2min，对室内温度变化无明显影响，新风开启时长的样本SHAP值最小，且在Boruta算法中新风开启时长为Tentative，可将其排除在菇房环境特征数据之外。

此外，菇房外温度数据和太阳辐射数据均是经过墙壁传热来影响菇房内温度，为减少神经网络特征冗余，仅保留下热通量数据。

因此，经过基于Brouta算法的评价模型和基于SHAP值的评价模型对上述菇房环境数据的筛选，最后确定历史采样周期内的菇房温度数据、菇房内空调开启时长数据、室内CO₂浓度数据和热通量数据作为输入菇房温度预测模型的菇房环境特征数据。

本发明提供的菇房温度预测模型的训练方法，利用基于Brouta算法的评价模型和基于SHAP值的评价模型对采集到的菇房环境数据进行关键影响因素的筛选，对菇房环境数据进行重要性的定性评价以及贡献度评价，从中选取出对于模型输出结果影响较大的关键菇房环境数据作为输入菇房温度预测模型的菇房环境特征数据，从而减少模型的输入特征数量，进一步提高菇房温度预测模型训练的收敛速度，将关键的菇房环境特征数据作为输入特征能提高菇房温度预测模型的预测精度。

图4是本发明提供的菇房温度预测方法的流程示意图，如图4所示，菇房温度预测方法包括但不限于以下步骤：

步骤401：获取当前采样周期的菇房环境特征数据。

在一实施例中，获取的当前采样周期的菇房环境特征数据包括菇房温度数据、菇房内空调开启时长数据、室内CO₂浓度数据和热通量数据。

步骤402：将所述菇房环境特征数据输入至菇房温度预测模型，输出所述当前采样周期的下一采样周期的菇房温度预测结果；

所述菇房温度预测模型是基于上述任一实施例所述的菇房温度预测模型的训练方法训练得到的。

需要说明的是，本发明提供的菇房温度预测方法的执行主体是相对应的菇房温度预测装置，具体可以是服务器、计算机设备，例如手机、平板电脑、笔记本电脑、掌上电脑、超级移动个人计算机（ultra-mobile personal computer，UMPC）、上网本或者个人数字助理（personal digital assistant，PDA）等。

本发明提供的菇房温度预测方法，通过将训练样本中的菇房温度标签依据分解后的模态分量的复杂度划分为高、低频温度标签，充分挖掘了训练样本数据中的重要特征和隐藏结构，再将两种标签分别用于训练并联构成菇房温度预测模型的两个子模型，使模型能够更好学习和捕捉训练样本，模型训练的收敛速度更快，得到的预测模型精度更高、预测结果更准确。

图5是本发明提供的菇房温度预测装置的结构示意图，如图5所示，菇房温度预测装置包括但不限于以下结构：

数据获取单元501，用于获取当前采样周期的菇房环境特征数据；

温度预测单元502，用于将所述菇房环境特征数据输入至菇房温度预测模型，输出所述当前采样周期的下一采样周期的菇房温度预测结果；

本发明提供的菇房温度预测装置，通过将训练样本中的菇房温度标签依据分解后的模态分量的复杂度划分为高、低频温度标签，充分挖掘了训练样本数据中的重要特征和隐藏结构，再将两种标签分别用于训练并联构成菇房温度预测模型的两个子模型，使模型能够更好学习和捕捉训练样本，模型训练的收敛速度更快，得到的预测模型精度更高、预测结果更准确。

需要说明的是，本发明提供的菇房温度预测装置，在具体运行时，可以执行上述任一实施例所述的菇房温度预测方法，对此本实施例不作赘述。

图6是本发明提供的电子设备的结构示意图，如图6所示，该电子设备可以包括：处理器（processor）610、通信接口（Communications Interface）620、存储器（memory）630和通信总线640，其中，处理器610，通信接口620，存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令，以执行菇房温度预测模型的训练方法和/或菇房温度预测方法。

其中，所述菇房温度预测模型的训练方法包括但不限于以下步骤：所述菇房温度预测模型是由第一预测子模型和第二预测子模型并联构成的，所述训练方法包括：

其中，所述菇房温度预测方法包括但不限于以下步骤：

获取当前采样周期的菇房环境特征数据；

此外，上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行菇房温度预测模型的训练方法和/或菇房温度预测方法。

其中，所述菇房温度预测方法包括但不限于以下步骤：

获取当前采样周期的菇房环境特征数据；

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种菇房温度预测模型的训练方法，其特征在于，所述菇房温度预测模型是由第一预测子模型和第二预测子模型并联构成的，所述训练方法包括：

利用所述特征向量样本和所述高频温度标签训练第一预测子模型，并利用所述特征向量样本和所述低频温度标签训练第二预测子模型；

针对任一所述模态分量，所述复杂度的计算包括以下步骤：

计算所述模态分量所有序列值的平均值；将所有序列值中大于所述平均值的赋值为1，将小于所述平均值的赋值为0，得到所述模态分量对应的二进制序列；计算所述二进制序列的复杂度，将所述二进制序列的复杂度作为所述模态分量的复杂度，所述二进制序列的复杂度是基于所述二进制序列中相邻数值构成的不同子序列的数量确定的；

所述根据所述复杂度，将所有所述模态分量进行高低频分类，包括：

根据所述复杂度，对所有所述模态分量从小到大进行排序，得到模态分量列表；将所述模态分量列表中各模态分量按照排列顺序逐次累加，获取累计复杂度；计算所述累计复杂度与所有模态分量的总复杂度之间的比值；确定所述比值大于预设临界参数时的累计复杂度为目标累计复杂度；确定所述模态分量列表中与所述目标累计复杂度计算相关的所有模态分量为高频模态分量，否则确定为低频模态分量。

2.根据权利要求1所述的菇房温度预测模型的训练方法，其特征在于，所述计算所述二进制序列的复杂度，包括：

设为0，和为空字符，的初始值为1；

步骤2，令；

步骤3，令，为空字符；

迭代执行步骤1至步骤3，直至。

3.根据权利要求1所述的菇房温度预测模型的训练方法，其特征在于，将所述菇房温度标签分解为若干个模态分量之前，还包括：

4.根据权利要求1所述的菇房温度预测模型的训练方法，其特征在于，所述菇房温度预测模型的损失函数是基于平均绝对误差和热平衡物理模型的损失函数确定的；

5.根据权利要求4所述的菇房温度预测模型的训练方法，其特征在于，所述菇房温度预测模型的损失函数的计算公式为：

；

所述热平衡物理模型的损失函数的计算公式为：

；

所述历史采样周期内的菇房平均温度的计算公式为：

；

6.根据权利要求1所述的菇房温度预测模型的训练方法，其特征在于，所述菇房环境特征数据是对多种菇房环境数据进行筛选后得到的；

相应的，对所述多种菇房环境数据进行筛选，包括：

7.一种菇房温度预测方法，其特征在于，包括：

获取当前采样周期的菇房环境特征数据；

所述菇房温度预测模型是基于权利要求1至6任一项所述的菇房温度预测模型的训练方法训练得到的。

8.一种菇房温度预测装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述菇房温度预测模型的训练方法，或者实现如权利要求7所述菇房温度预测方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述菇房温度预测模型的训练方法，或者实现如权利要求7所述菇房温度预测方法。