CN113834200A

CN113834200A - 基于强化学习模型的空气净化器调节方法及空气净化器

Info

Publication number: CN113834200A
Application number: CN202111418292.7A
Authority: CN
Inventors: 鲁峰
Original assignee: Shenzhen Yugong Technology Co ltd
Current assignee: Shenzhen Yugong Technology Co ltd
Priority date: 2021-11-26
Filing date: 2021-11-26
Publication date: 2021-12-24
Also published as: WO2023093388A1

Abstract

本发明公开了一种基于强化学习模型的空气净化器调节方法及空气净化器，通过对空气污染物含量的不断监控，使得空气净化器的档位总能调整在最合适的档位上，而并非总开在最大档位。由于本发明能自动根据净化效果来进行调节，其调节可仅根据空气污染物的含量等空气参数确定，仅靠空气净化器单机本身就能实现空气净化效果的提升，无需借助额外装置的协同动作或参数提供，即可获得如下的技术效果：效果提升、效率提升、能耗降低，并且降低了手动干预，使得操作更简便。

Description

基于强化学习模型的空气净化器调节方法及空气净化器

技术领域

本发明涉及一种基于机器学习算法-强化学习模型的空气净化器调节方法，及一种采用该方法的空气净化器。

背景技术

传统的空气净化器有两种调节的方式：

A、需要用户手动控制——用户通过观察空气净化器上或者是与空气净化器联通的app上现实的PM2.5的数值、自己的作息时间、是否开窗等一系列因素，手动触发空气净化器的控制档位到高档位还是低档位或者直接进入休眠；

B、使用自动化控制——通过空气净化器自身携带的污染物传感器，依据国家对污染物浓度的标准定义，设定阈值，当污染物浓度大于或者超过阈值，空气净化器自动增加档位，当浓度低于阈值，自动下降档位。

虽然理论上这套控制逻辑似乎是没错的：随着空气质量的变坏，自动控制会调整净化功率，空气质量越差，档位越高；空气质量越好，档位越低。这样在具备强大的过滤能力的同时，兼顾了节能和方便两个重要的因素。但是实际情况并非如此，按照自动模式，在实验室是可以快速地把空气质量由坏过滤到优的状态，但是本发明人通过已售物联网产品的大数据统计发现：

A、只有不到60%用户家里的空气净化器可以把空气调整到优；

B、同一个用户在位置环境不变的情况下，也不能保证100%的会始终把空气质量保持在优。

在公开号为CN107065582A、名称为《一种基于环境的参数的室内空气智能调节系统和调节方法》的中国专利申请文献中，公开了一种基于环境的参数的室内空气智能调节系统和调节方法，包括窗控终端、空调系统、空气净化系统，还包括分布式Wi-Fi网络、数据采集模块和处理模块，窗控终端、空调系统、空气净化系统、数据采集模块通过分布式Wi-Fi网络与处理模块连接，该文献中的调节系统，通过室内温湿度传感器、CO2浓度传感器和室内PM2.5传感器收集环境参数，并把数据通过分布式Wi-Fi网络上传至本地服务器处理模块，通过电表把数据上传至本地服务器处理模块，然后本地服务器处理模块根据所获数据和设定温湿度的值通过一种基于强化学习的方法分析计算，给出窗控终端、空调系统、空气净化设备应做的动作，改变室内空气状况，以期在能耗最低的情况下实现室内空气质量的提高。

该文献中将空气净化设备的动作的控制和窗控终端、空调系统挂钩，虽然一定程度能能实现在能耗最低的情况下实现室内空气质量的提高，但其控制复杂，所需要考虑的窗控终端、空调系统等因素和空气净化器设备不属于同一设备，造成用户安装使用极为不便，把一个简单的家用电器购置事务变成了一个小型的室内装修工程。

而且，该文献的技术方案的控制效果仍然不佳。

发明内容

为了弥补上述现有技术的不足，本发明提出一种基于强化学习模型的空气净化器调节方法及空气净化器，提高空气净化效果。

本发明的技术问题通过以下的技术方案予以解决：

1、一种基于强化学习模型的空气净化器调节方法，其特征在于，包括如下步骤：S1、根据空气净化器当前的状态S1，查找权值表，采用Q-Learning算法控制空气净化器开启不同的动作或组合动作A1；其中权值表是指在特定状态下动作与其所对应的权值的对照表；S2、持续预定时间以后，获取在状态S1下执行动作或组合动作A1工作的权值大小，写入权值表，实现对权值表的更新；其中“预定时间”根据房间的面积和层高确定；S3、后续以更新后的权值表执行步骤S1；其中，所述状态根据S1根据空气净化器当前的执行档位，以及空气净化器自身所能测得的当前空气中的参数确定。步骤S1-S2为训练阶段，步骤S3为控制阶段。

在一些实施例中，还包括如下改进：

在训练阶段，不断执行步骤S1-S2，并判断本次的训练是否达到了预期的目的的标准，如果达到，就结束本次训练。

在步骤S3中，还判断之前的训练模型是否已经不能满足当前空气动力模型的需求，如是，则开始重新训练，根据空气净化器当前的状态Sn执行不同的动作或组合动作An获取更新不同的权值，更新权值表；其中n为自然数；所述状态根据Sn根据空气净化器当前的执行档位，以及空气净化器自身所能测得的当前空气中的参数确定。

针对每一个状态Sn，权值表中给出多个动作所对应的权值，控制时，根据每次空气净化器的状态在Q-table中找到最高的权值对应的动作来进行空气净化器控制。

所述状态根据S1、Sn根据空气净化器当前的执行档位、当前空气中的污染物含量确定。

权值的计算方式如下：

Q[s][a]=(1-lr)*Q[s][a]+lr*(reward+factor*max(Q[next_s]))

表达式含义如下:

s,a，next_s分别表示当前状态，当前动作，下一个状态；

reward表示奖励，即执行a动作的奖励；

Q[s][a]表示价值，即状态s下，动作a产生的价值；

max(Q[next_s])表示最大价值，即下一个状态下，所有动作价值的最大值；

lr表示学习速率(learning_rate)，lr越大，保留之前训练效果越少；lr为0，Q[s,a]值不变；lr为1时，完全抛弃了原来的值；

factor表示折扣因子(discount_factor)，factor越大，表示越重视历史的经验;factor为0时，只关心当前利益(reward)。

当前状态执行了控制指令后的reward数值跟空气污染物的降低成正比，跟执行的档位成反比。

reward数值的算法如下：

reward=（执行档位前的污染物浓度-执行该档位一段时间后的污染物浓度）/执行的档位；

其中“一定时间”根据房间的面积和层高确定。

空气净化器状态根据空气净化器的档位和空气污染物含量联合确定。

所述空气污染物含量根据如下污染物的含量确定：pm1、pm2.5和pm10。

所述Q-Learning算法在云端执行，空气净化器通过互联网和云端通讯。

本发明还包括一种空气净化器，包括主控单元、空气传感器单元，以及存储器，所述存储器中存储有计算机软件，所述计算机软件可被执行以实现如上所述的方法。

本发明与现有技术对比的有益效果包括：本发明通过对空气污染物含量的不断监控，使得空气净化器的档位总能调整在最合适的档位上，而并非总开在最大档位。通过单一设备即可实现净化效果的提升，而无须额外设备的配合。

通过实验表明，在一些实施例中，本发明获得了如下的技术效果：

a.效果提升，之前65%左右的空气净化器可以过滤到很好的效果，使用了智能模型后的，85%以上可以达到很好的净化效果；

b.效率提升，同样的空间和污染物，净化效率提升了20%；

c.能耗降低，能耗较之前降低了30%以上；

d.降低了手动干预，操作简便。

由于本发明能自动根据净化效果来进行调节，其调节可仅根据空气污染物的含量等空气参数确定，将空调、窗控等因素的影响体现在空气污染物等的测量结果里，因而无需再考虑空调、窗控等因素，这样仅靠空气净化器单机本身就能实现空气净化效果的提升，无需借助额外装置的协同动作或参数提供，并且还能兼顾考虑时间因素、空间因素等其他因素，真正达到简洁又高效的效果。

附图说明

图1是本发明的具体实施例的实现流程图。

图2是本发明实施例的云服务器构成图。

图3是本发明实施例的硬件图。

图4是本发明概要流程图。

图5A是本发明实施例AI模式的净化效果图。

图5B是现有技术中自动模式的净化效果图。

图6A是本发明实施例AI模式的净化效率图。

图6B是现有技术中自动模式的净化效率图。

图7A是本发明实施例AI模式的能耗对比图-APP报告。

图7B是现有技术中自动模式的能耗对比图-APP报告。

图7C是采用本发明的AI控制的周能耗报告第三方计量插座报告。

图7D是现有技术自动控制的周能耗报告-第三方计量插座报告。

图7E是本发明AI控制和现有技术中自动模式分时控制的能耗对比图-第三方计量插座报告。

具体实施方式

下面对照附图并结合优选的实施方式对本发明做进一步说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本实施例中的左、右、上、下、顶、底等方位用语，仅是互为相对概念，或是以产品的正常使用状态为参考的，而不应该认为是具有限制性的。

通过大量的调研和测试，我们发现，现有技术中的方法效果不佳的问题在于没有考虑到如下因素：

空间因素：用户家庭所处的位置；

时间因素：用户使用空气净化器的时间（春、夏、秋、冬，白天还是夜晚）。

这些因素，以及可能的其他因素，导致空气中污染物含量不同，成分不同，进一步导致了现有技术的空气净化效果不佳，造成：

1，净化效率不固定；

2，净化效果不固定；

3，功耗不稳定；

4，没有办法脱离人工干预。

本发明下述实施例单独使用空气净化器一个产品，进行AI强化学习和控制，不但操作简单，而且能提升净化效果。其基本构思是：根据空气净化器当前的状态S1，查找权值表，采用Q-Learning算法控制空气净化器开启不同的动作或组合动作A1；其中权值表是指在特定状态下动作与其所对应的权值的对照表；持续预定时间以后，获取在状态S1下执行动作A1工作的权值大小，写入权值表，实现对权值表的更新；后续以更新后的权值表执行步骤S1-S2，不断根据空气净化器当前的状态Sn执行不同的动作或组合动作An获取更新不同的权值，更新权值表；其中n为自然数。其中组合动作可以是不同档位的组合，或同一档位的间歇组合。其概要流程图如图4所示。

相关概念定义说明如下：

本发明下述实施例中，用到Q值的初始化，学习时，其初始化Q值表如下表所示：

Q-Table（表中的10、20、30等数值表示权值）

其中，下表是实际控制时Q-Table中空气中污染物状态与空气净化器开启的档位权值的关系表的一个例子：

其中第一列0-99数值是PM2.5的值除以10取整得到的数据，表示的是从PM值从0-1000之间的多个读数档。

本实施例的方法流程如图1所示，其算法可以在本地执行，也可以在云端执行，云服务器构成如图2所示。

本实施例的方法介绍如下：

一、训练

根据空气净化器当前的状态S1，通过让空气净化器开启不同的组合动作A1，持续一段时间以后（时间和空间的大小有关系，如下所述），观察当前控制是否对空气质量进行了有效的过滤，从而获取在S1下，执行A1工作的权值大小，不断根据执行不同的动作获取更新不同的权值写入Q-table。

Q[s][a]=(1-lr)*Q[s][a]+lr*(reward+factor*max(Q[next_s]))

表达式含义简介如下:

s,a，next_s——当前状态，当前动作，下一个状态；

reward——奖励，执行a动作的奖励；

Q[s][a]——价值，状态s下，动作a产生的价值；

max(Q[next_s])——最大价值，下一个状态下，所有动作价值的最大值；

lr——学习速率(learning_rate)，lr越大，保留之前训练效果越少；lr为0，Q[s,a]值不变；lr为1时，完全抛弃了原来的值；

factor——折扣因子(discount_factor)，factor越大，表示越重视历史的经验;factor为0时，只关心当前利益(reward)。

其中，当前状态执行了控制指令后的reward数值跟空气污染物的降低成正比，跟执行的档位成反比（档位数值大，意味着空气净化器开启的功率比较大），算法举例如下：

此处“一段时间”的确定方法如下：用户输入的不是时间，是房间的面积和层高，因此需根据面积和层高来确定时间。大致在过滤到房间空气容量的大概2/3的时候。举例说明如下：假设空气净化器有1，2，3三个档位，每个档位输出洁净空气的速度是不一样的，一档是100立方米每小时，二档是200立方米每小时，三档是330立方米每小时。一小时是3600秒，100除以3600就能得到每秒钟输出的洁净空气的体积；如果房间是20平方米，层高是3米，那么空间大概的是60立方米的空气容积，如果不考虑室内外空气的置换，我们过滤大概2/3的时候，会观察到空气污染物含量的明显降低，等待的时间就是60立方米的2/3然后除以当前档位空气过滤的速度。

二、AI控制

根据每次空气净化器的状态在Q-table中找到最高的权值对应的动作。其中对空气净化器进行AI控制权值的查找方式：对状态进行细分，状态中当前污染物的浓度，用污染物浓度除以10取整，35/10状态就是3。

对比实验数据

本实施例中PM通道有：pm1、pm2.5，和pm10。传感器技术指示如下表：

本申请利用pm1、pm2.5和pm10之间的天然关联性，将三者同测，实验证明能实现空气污染物含量的高效及准确测定。现有技术通常只关心pm2.5的值，由于不同地区、不同季节甚至不同天气时，这三者的关联方式并不相同，因此，现有技术无法设计出一个这样的关联策略，它能通过pm1和pm10的测量反过来促进pm2.5的净化效果。

具体的实现流程图见图1：

1.对Q-table进行初始化

Q-table初始化，有几种方式：随机、有序、基础经验初始化，其中随机和有序的方式都有可能造成用户初期的体验不佳；我们采用的是按照自动方式的操作，进行初始化，（这里不是指现有技术中的第二种调节方式，而是Q-learing学习之前自动给出的一个适应与空气净化器场景的初始值）；

2.单点数据采集

采集当前空气净化器在当前档位工作对空气质量造成的影响；主要考量一下几个因素：

空气净化器喷射的空气会对空间的空气流动造成影响；

对于改变档位对空气质量造成的影响，需要一段时间后空气净化器才能稳定的感知到；这个时间和空气净化器所处的空间大小有关系（如前述），用户可以通过app手动输入；

3.对采集的数据进行分析，给出下一步控制指令；

当前档位造成的影响可以理解为我们对当前档位进行效果评估的一个参数，（和档位成反比，和空气净化效果成正比）；

计算这次AI操作得到的Q-table，并更新数据；

重新获取当前的污染物数据，如果污染物没有控制到理想程度（污染物浓度降低到各国要求的优质范围之内，比如中国pm2.5，0-30是优），则查询Q-table，获取目前需要下发的档位控制指令，跳转到2，等待结果；如果污染物已经控制到理想范围，则结束本次训练，保存Q-table，开启AI预测模式；

4.AI预测模式评估模块

对AI预测模式下，空气质量的变化进行统计，12个小时内，当前的AI模型没有办法对空气质量形成好的促进（同时出现以下两种情况），则需要重新开始训练：当前的预测模式下，获取到的reward全是负向，并且空气污染物含量已经超出了安全区间。

算法的上几种实现方式

空气净化器的操作具有以下特点：空气质量的反馈具有滞后性，需要执行一段时间后才能看到效果;空气净化器对于空气的过滤具有阶段性，在一定阶段这种运行是最好的，当时间或者空间中的因素发生变化，就不一定了。

所以我们没有用监督学习，因为我们不能明确地取得空气净化器执行某个指令后的好或者坏的定义，强化学习显然更符合这个场景，那么强化去学习中需要解决的：

Q-Learning是强化学习算法中value-based的算法，Q即为Q（s，a），就是在某一个时刻的state状态下，采取动作a能够获得收益的期望，环境会根据agent的动作反馈相应的reward奖赏，所以算法的主要思想就是将state和action构建成一张Q_table表来存储Q值，然后根据Q值来选取能够获得最大收益的动作。

Q-learning的主要优势就是使用了时间差分法（融合了蒙特卡洛和动态规划）能够进行off-policy的学习，使用贝尔曼方程可以对马尔科夫过程求解最优策略。

软硬件构成图如图3所示。

本发明的方法实施实现如下优点：

1、净化效果得到了提升；

相同非封闭环境，进行为期一周的测试，同一台净化器，分别使用AI模式和自动模式进行测试对比如下：如图5A-5B所示，采用本发明的AI控制能把PM2.5的值控制在更低水平，净化效果得到了提升。其中图5A是AI模式，图5B是自动模式。

2、净化效率提升：

同等封闭的环境，进行人为放入污染物，效率对比如下:如图6A-6B所示，采用本发明的AI控制能更快的降低PM2.5的含量，净化效率得到了提升。其中图6A是AI模式，图6B是自动模式。

3、功耗降低:

综上两种情况下，功耗对比如下：如图7A-7B是APP内能耗报告，明显看出采用本发明的AI模式比采用传统模式更加节电；同时，从图7C-7E的第三方计电量插座报告也显示，采用本发明的AI模式比采用传统模式更加节电。其中，图7C是采用本发明的AI控制的周能耗报告，图7D是采用现有技术自动控制的周能耗报告，图7E中，10:00-11:00记录的是AI开启的能耗，14:00-15:00记录的是自动开启的能耗。

4、无需人手控制

两种情况下人手动控制的次数记录显示，连续三周无人手控制的记录。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说，在不脱离本发明构思的前提下，还可以做出若干等同替代或明显变型，而且性能或用途相同，都应当视为属于本发明的保护范围。

Claims

1.一种基于强化学习模型的空气净化器调节方法，其特征在于，包括训练阶段和控制阶段，训练阶段如下步骤：

S1、根据空气净化器当前的状态S1，查找权值表，采用Q-Learning算法控制空气净化器开启不同的动作或组合动作A1；其中权值表是指在特定状态下动作与其所对应的权值的对照表；

S2、持续预定时间以后，获取在状态S1下执行动作或组合动作A1工作的权值大小，写入权值表，实现对权值表的更新；其中“预定时间”根据房间的面积和层高确定；

控制阶段包括如下步骤：

S3、以更新后的权值表执行步骤S1；

其中，所述状态根据S1根据空气净化器当前的执行档位，以及空气净化器自身所能测得的当前空气中的参数确定。

2.如权利要求1所述的基于强化学习模型的空气净化器调节方法，其特征在于：在训练阶段，不断执行步骤S1-S2，并判断本次的训练是否达到了预期的目的的标准，如果达到，就结束本次训练。

3.如权利要求1所述的基于强化学习模型的空气净化器调节方法，其特征在于；在步骤S3中，还判断之前的训练模型是否已经不能满足当前空气动力模型的需求，如是，则开始重新训练，根据空气净化器当前的状态Sn执行不同的动作或组合动作An获取更新不同的权值，更新权值表；其中n为自然数；所述状态根据Sn根据空气净化器当前的执行档位，以及空气净化器自身所能测得的当前空气中的参数确定。

4.如权利要求3所述的基于强化学习模型的空气净化器调节方法，其特征在于：针对每一个状态Sn，权值表中给出多个动作所对应的权值，控制时，根据每次空气净化器的状态在Q-table中找到最高的权值对应的动作来进行空气净化器控制。

5.如权利要求1所述的基于强化学习模型的空气净化器调节方法，其特征在于，权值的计算方式如下：

Q[s][a]=(1-lr)*Q[s][a]+lr*(reward+factor*max(Q[next_s]))

表达式含义如下:

s,a，next_s分别表示：当前状态，当前动作，下一个状态；

reward表示奖励，即执行a动作的奖励；

Q[s][a]表示价值，即在状态s下，动作a产生的价值；

max(Q[next_s])表示最大价值，即在下一个状态下，所有动作价值的最大值；

lr表示学习速率(learning_rate)，lr越大，保留之前训练效果越少；lr为0时，Q[s,a]值不变；lr为1时，完全抛弃了原来的值；

6.权利要求5所述的基于强化学习模型的空气净化器调节方法，其特征在于，当前状态执行了控制指令后的reward数值跟空气污染物的降低成正比，跟执行的档位成反比。

7.权利要求6所述的基于强化学习模型的空气净化器调节方法，其特征在于，reward数值的算法如下：

reward=（执行档位前的污染物浓度-执行该档位一段时间后的空气污染物浓度）/执行的档位；

其中“一定时间”根据房间的面积和层高确定。

8.权利要求7所述的基于强化学习模型的空气净化器调节方法，其特征在于，所述空气污染物浓度根据如下污染物的含量确定：pm1、pm2.5和pm10。

9.权利要求1所述的基于强化学习模型的空气净化器调节方法，其特征在于，所述Q-Learning算法在云端执行，空气净化器通过互联网和云端通讯。

10.一种空气净化器，包括主控单元、空气传感器单元，以及存储器，所述存储器中存储有计算机软件，所述计算机软件可被执行以实现如权利要求1-9所述的方法。