CN109073253A

CN109073253A - 环境调节方法、及服务器

Info

Publication number: CN109073253A
Application number: CN201780002975.XA
Authority: CN
Inventors: 谢毅; 张鹏程; 张晴晴
Original assignee: Shenzhen Micronature Innovation Technology Co Ltd
Current assignee: Shenzhen Micronature Innovation Technology Co Ltd
Priority date: 2017-05-22
Filing date: 2017-05-22
Publication date: 2018-12-21
Anticipated expiration: 2037-05-22
Also published as: WO2018214001A1; CN109073253B

Abstract

本发明实施例涉及智能家居领域，公开了一种环境调节方法、及服务器，该方法包括：获取目标区域当前的室外环境参数以及室内环境参数，确定与所述室外环境参数相对应的目标室内环境参数；构建目标矩阵；采用预置的策略选择机制，依据所述目标矩阵确定所要选择的目标操作集合，生成相应的控制指令，向环境调节装置发送所述控制指令；在确定所述目标区域未达到所述目标状态的情况下，计算所述目标操作集合对应的目标值，使用所述目标值更新所述目标矩阵；在确定所述目标区域达到所述目标状态后，停止更新所述目标矩阵。本发明实施例中的方案，可以将目标区域的室内环境快速地调节到预期的状态。

Description

环境调节方法、及服务器

技术领域

本发明涉及智能家居领域，尤其涉及一种环境调节方法、及服务器。

背景技术

目前，人们经常使用家用电器如空调、空气净化器等去调控室内环境，由于人们不能完全了解这些家用电器的特性，导致人们在使用的过程中不清楚如何控制这些家用电器快速地达到自己想要的效果。如今，控制家用电器达到预期效果的方式是一次次的进行尝试，直到达到预期的效果。举例来说，用户认为当前舒适的温度为26摄氏度，该用户可以通过遥控器将空调的温度调到26摄氏度，并设置该空调的模式和风速，当该空调的温度达到26摄氏度后保持温度不变，该空调对应的26摄氏度可能不是用户预期的温度，这时用户需要再重新设置温度。通过这种方式，用户难以一次将室内温度调节到预期的状态，也很难找到较理想的调节方式，导致室内环境不能快速地达到预期的效果，耗电量大。

在实际应用中，采用上述技术方案，难以将室内环境快速地调节到预期的状态。

发明内容

本发明实施例提供一种环境调节方法、及服务器，用于将室内环境快速地调节到预期的状态。

一方面本发明实施例提供了一种环境调节方法，包括：

获取目标区域当前的室外环境参数以及室内环境参数，确定与所述室外环境参数相对应的目标室内环境参数，所述室内环境参数表征所述目标区域当前所处的第一状态，所述目标室内环境参数表征所述目标区域的目标状态；

构建目标矩阵，所述目标矩阵的第一行元素为将所述目标区域从所述第一状态调整到所述目标状态可选择的至少两个操作集合所对应的参数值，所述参数值越大将所述目标区域从所述第一状态调整到所述目标状态的可能性越高，所述操作集合包括至少一种类型的调节操作；

采用预置的策略选择机制，依据所述目标矩阵确定所要选择的目标操作集合，生成相应的控制指令，向环境调节装置发送所述控制指令，所述控制指令指示所述环境调节装置执行所述目标操作集合所指定的操作；

在确定所述目标区域未达到所述目标状态的情况下，依据所述目标区域当前所处的第二状态、所述第一状态以及所述目标状态计算所述目标操作集合对应的目标值，使用所述目标值更新所述目标矩阵。

二方面本发明实施例提供了一种服务器，包括：

获取单元，用于获取目标区域当前的室外环境参数以及室内环境参数，所述室内环境参数表征所述目标区域当前所处的第一状态；

确定单元，用于确定与所述室外环境参数相对应的目标室内环境参数，所述目标室内环境参数表征所述目标区域的目标状态；

矩阵构建单元，用于构建目标矩阵，所述目标矩阵的第一行元素为将所述目标区域从所述第一状态调整到所述目标状态可选择的至少两个操作集合所对应的参数值，所述参数值越大将所述目标区域从所述第一状态调整到所述目标状态的可能性越高，所述操作集合包括至少一种类型的调节操作；

所述确定单元，还用于采用预置的策略选择机制，依据所述目标矩阵确定所要选择的目标操作集合；

生成单元，用于依据所述目标操作集合生成相应的控制指令，所述控制指令指示所述环境调节装置执行所述目标操作集合所指定的操作；

发送单元，用于向环境调节装置发送所述控制指令；

所述确定单元，还用于确定所述目标区域未达到所述目标状态的情况；还用于确定所述目标区域达到所述目标状态；

计算单元，用于在确定所述目标区域未达到所述目标状态的情况下，依据所述目标区域当前所处的第二状态、所述第一状态以及所述目标状态计算所述目标操作集合对应的目标值；

更新单元，用于使用所述目标值更新所述目标矩阵。

三方面本发明实施例还提供了一种服务器，包括：处理器、接收器、发送器以及存储器；在所述存储器中存储有可执行程序；所述处理器通过执行所述可执行程序实现前述一方面提供的任意一项的方法。

本发明实施例具有以下有益效果：获取目标区域当前的室外环境参数以及室内环境参数，确定与该室外环境参数相对应的目标室内环境参数，确定该目标区域在不同室外环境下的热舒适区所对应的环境参数；构建目标矩阵，采用预置的策略选择机制依据该目标矩阵选择相应的操作集合，该目标矩阵的第一行元素为将室内环境从第一状态调整到目标状态可选择的至少两个操作集合所对应的参数值；使用强化学习的算法不断优化该目标矩阵，并依据优化后的目标矩阵确定操作集合，可以使得室内环境快速地达到目标状态。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对本发明实施例或背景技术中所需要使用的附图进行说明。

图1是本发明实施例提供的一种是环境调节方法流程示意图；

图2是本发明实施例构建目标矩阵的示意图；

图3是本发明实施例提供的另一种是环境调节方法流程示意图；

图4是本发明实施例服务器结构示意图；

图5是本发明实施例服务器结构示意图。

具体实施方式

下面结合本发明实施例中的附图对本发明实施例进行描述。

请参见图1，图1是本发明实施例提供的一种室内环境调节的方法，包括：

101、获取目标区域当前的室外环境参数以及室内环境参数，确定与上述室外环境参数相对应的目标室内环境参数；

上述室内环境参数表征上述目标区域当前所处的第一状态，上述目标室内环境参数表征上述目标区域的目标状态。服务器获取目标区域当前的室外环境参数以及室内环境参数。上述目标区域可以是某个室内区域，例如可以是办公室、室内球场、室内游泳场、某个办公区域、某个家庭的房间、车内、飞机内、船内等。上述室外环境参数可以是温度、湿度、光照强度等。上述室内环境参数可以是温度、湿度、室内风速等。

上述服务器可以预先存储有上述目标区域预置时间段内的室内环境参数，这些室内环境参数可以是通过位于上述目标区域内的传感器测量得到的，也可以是从其他服务器获取的。上述服务器可以通过位于上述目标区域内的传感器采集上述目标区域的室内环境参数，从目标服务器获取目标区域当前的上述室外环境参数，并进行存储。举例来说，位于上述目标区域内的传感器可以周期性的将采集到的室内环境参数上传到上述服务器，上述服务器可以从天气网或者雅虎给予的应用程序编程接口获得上述目标区域的室外环境参数。上述服务器可以将上述目标区域同一时间的室外环境参数与室内环境参数存储到一起。

在一种可选的实现方式中，提供了一种确定与目标区域的室外环境参数相对应的目标室内环境参数的方法，具体如下：上述确定与上述室外环境参数相对应的目标室内环境参数包括：

确定上述室外环境参数所对应的目标等级序列，上述目标等级序列包含上述室外环境参数中的至少两项参数所对应的等级；

确定与上述目标等级序列相对应的至少两个室外环境参数，确定上述至少两个室外环境参数对应的至少两个室内环境参数；

确定上述至少两个室内环境参数中与第一等级序列相对应的室内环境参数的数目以及与第二等级序列相对应的室内环境参数的数目，上述第一等级序列和上述第二等级序列均包含室内环境参数中的至少两项参数所对应的等级；

在上述第一等级序列对应的室内环境参数的数目大于上述第二等级序列对应的室内环境参数的数目的情况下，确定上述第一等级序列对应的环境参数范围为上述目标室内环境参数。

作为一个举例，室外环境参数可以按照下面的方式进行等级划分，具体如下：

室外温度：0℃-5℃，6℃-10℃，11℃-15℃，16℃-20℃，20℃-25℃···对应的等级分别为1，2，3，4，5···,(5℃间隔，以可影响室内温度的室外温差间隔为准)；

室外湿度：0-40％，41-70％，71-100％对应1，2，3等级(以干燥、舒适、潮湿划分)；

室内光照：0-100lx，101-1000lx，1001lx以上对应1，2，3等级(以弱光，舒适，强光划分)。

例如室外环境参数(12℃，70％，150lx)表示室外温度为12℃、室外湿度为70％、室内光照为150lx，其对应的等级序列为(3，2，2)。

上述确定上述室外环境参数所对应的目标等级序列的具体方法可以是先确定各个参数所处的参数范围，再依据各个参数所处的参数范围确定各个参数对应的等级，得到上述目标等级序列。每个等级序列对应至少两个室外环境参数。例如等级序列(3，2，2)对应的参数范围为(11℃-15℃，41-70％，101-1000lx)，即室外温度处于11℃-15℃，且室外湿度处于为41-70％，且室内光照处于101-1000lx的室外环境参数均与等级序列(3，2，2)相对应。

上述室外环境参数也可以按照其他方式进行等级划分，例如可以将每个等级序列划分为对应的参数范围更小的等级数列。

上述确定上述至少两个室外环境参数相对应的至少两个室内环境参数具体可以是确定上述目标区域在上述至少两个室外环境参数下，获取到的室内环境参数为与上述至少两个室外环境参数相对应的上述至少室内环境参数。

举例来说，室外环境参数(12℃，70％，150lx)对应的等级序列为(3，2，2)，与位于(11℃-15℃，41-70％，101-1000lx)范围内的室外环境参数相对应的室内环境参数是与室外环境参数(12℃，70％，150lx)相对应的室内环境参数。

作为一个举例，室内环境参数可以按照下面的方式进行等级划分，具体如下：

室内温度：17℃，18℃，19℃···30℃，(1℃间隔，四舍五入，以人的实际感受为准)；

室内湿度：等级分为1，2，3，4，5分别对应0-40％，41-55％，56-70％，71-85％，86-100％(以人的实际感受及传感器误差为准)；

室内风速：等级分为1，2，3，0分别对应的空调风速为低、中、高、自动。

上述确定上述至少两个室内环境参数中与第一等级序列相对应的室内环境参数的数目以及与第二等级序列相对应的室内环境参数的数目的具体方法可以是确定各个上述室内环境参数所对应的等级序列。这样就可以确定各个等级序列所对应的室内参数的数目。例如室内环境参数(21℃，70％，中)表示室内温度为21℃、室外湿度为70％、室内风速为中，其对应的等级序列为(21，3，2)，该等级序列(21，3，2)对应的参数范围为(21℃，56-70％，中)。举例来说，上述室内环境参数对应的等级序列有5个，这5个等级序列分别对应的室内环境参数的数目为2、4、60、3、1，则确定对应室内参数数目为60的这个等级序列对应的环境参数范围为上述热舒适区对应的环境参数。

本发明实施例中，提供了一种获取与目标区域的室外环境参数相对应的目标室内环境参数的方法，可以准确地确定表征目标区域热舒适区的环境参数。

102、构建目标矩阵；

上述目标矩阵的第一行元素为将上述目标区域从第一状态调整到目标状态可选择的至少两个操作集合所对应的参数值，上述参数值越大将上述目标区域从上述第一状态调整到上述目标状态的可能性越高，上述操作集合包括至少一种类型的调节操作。上述目标矩阵至少有一行。上述第一状态为上述目标区域当前所处的状态，例如可以是(26℃，67％，强)，第一个参数表示上述目标区域当前的温度，第二参数表示上述目标区域当前的湿度，第三个参数表示上述目标区域当前的室内风速。室内风速可以按照空调风速强度划分为弱、中、强三个等级。上述目标状态可以是根据室外环境参数确定的较为理想的室内环境状态。具体的，可以根据室外环境参数与室内环境参数的对应关系确定上述目标状态。

上述操作集合对应环境调节装置的工作状态，以空调为例，其对应的操作集合可以是(空调温度，空调模式，空调风速)。空调模式可以包括制冷、抽湿、自动、送风、制热等。上述可选择的至少两个操作集合是指环境调节装置当前可以选择的操作集合，可以不限定于能够达到上述目标状态的操作集合。举例来说，上述第一状态为(28℃，60％，强)，上述目标状态为(22℃，50％，强)，上述可选择的至少两个操作集合可以是(22℃，除湿，强)、(21℃，除湿，强)、(26℃，制冷，弱)等，其中(26℃，制冷，弱)这一操作集合不能使上述室内环境达到上述目标状态。上述可选择的至少两个操作集合也可以限定于能够达到上述目标状态的操作集合，这样可以减少可选择的操作集合的数量，提高调节效率。举例来说，上述第一状态为(28℃，60％，强)，上述目标状态为(22℃，50％，强)，上述可选择的至少两个操作集合不可以是(26℃，除湿，弱)等，因为(26℃，除湿，弱)这一操作集合不能使上述室内环境达到上述目标状态。

上述目标矩阵可以是Q矩阵，上述第一状态和上述目标状态可以理解为位于状态集合中，上述可选择的至少两个操作集合可以理解为动作集合，上述参数值可以理解为奖励值。上述目标矩阵中，行表示不同的状态，列表示不同的操作集合，矩阵中的元素为从其所在的行所代表的状态出发执行其所在的列所代表的操作集合后，达到目标状态的奖励值即Q值，例如第一行第一列元素表示在第一状态下执行第一操作集合达到目标状态的奖励值。

103、采用预置的策略选择机制，依据上述目标矩阵确定所要选择的目标操作集合，生成相应的控制指令，向环境调节装置发送上述控制指令，上述控制指令指示上述环境调节装置执行上述目标操作集合所指定的操作；

上述环境调节装置可以是空调、空气净化器、加湿器、除湿器等。

在一种可选的实现方式中，提供了两种选择目标操作集合方法，具体如下：上述采用预置的策略选择机制，依据上述目标矩阵确定所要选择的目标操作集合包括：

从上述目标矩阵的第一行中选择数值最大的元素所对应的操作集合，作为上述目标操作集合；

或者，以概率ε从上述目标矩阵的第一行中筛选出数值最大的N个元素所对应的N个操作集合，并从上述N个操作集合中随机选择一个操作集合，作为上述目标操作集合，上述N为大于1的整数，上述N个元素不包括数值最大的元素；以概率1-ε从上述第一行中选择数值最大的元素所对应的操作集合，作为上述目标操作集合。

第一种方法是从上述目标矩阵的第一行中选择数值最大的元素所对应的操作集合，这种方法计算简单，在上述目标矩阵接近收敛时，有较大概率找到最好的操作集合，减少将目标区域调整到目标状态的时间。

第二种方法是概率1-ε从上述第一行中选择数值最大的元素所对应的操作集合，作为上述目标操作集合，以概率ε随机N个操作集合中的一个操作集合作为目标操作集合，有一定概率选择参数值不是最大的操作集合，在上述目标矩阵离收敛较远时，提高寻找到较优的操作集合的速度。

上述服务器可以通过终端设备如手机向上述环境调节装置发送上述控制指令。

本发明实施例中，提出了两种选择目标操作集合方法，可以根据目标矩阵的收敛情况，使用不同的选择方法，提高寻找较优的操作集合的速度。

104、在确定上述目标区域未达到上述目标状态的情况下，依据上述目标区域当前所处的第二状态、上述第一状态以及上述目标状态计算上述目标操作集合对应的目标值，使用上述目标值更新上述目标矩阵。

本发明实施例中，获取目标区域当前的室外环境参数以及室内环境参数，确定与该室外环境参数相对应的目标室内环境参数，确定该目标区域在不同室外环境下的热舒适区所对应的环境参数；构建目标矩阵，采用预置的策略选择机制依据该目标矩阵选择相应的操作集合，该目标矩阵的第一行元素为将室内环境从第一状态调整到目标状态可选择的至少两个操作集合所对应的参数值；使用强化学习的算法不断优化该目标矩阵，并依据优化后的目标矩阵确定操作集合，可以使得室内环境快速地达到目标状态。

在一种可选的实现方式中，提供了一种更新目标矩阵的方法，具体如下：上述使用上述目标值更新上述目标矩阵包括：

使用如下算式更新上述目标矩阵：

Q(s_t,a_t)＝Q(s_t,a_t)+α(R+γmax Q(s_t+1,a)-Q(s_t,a_t))；

算式左边的Q(s_t,a_t)为上述目标操作集合在上述目标矩阵更新后所对应的参数值，算式右边的Q(s_t,a_t)为上述目标操作集合在上述目标矩阵更新前所对应的参数值，上述α和上述γ为预置的常数，上述R为上述目标值，上述max Q(s_t+1,a)为在上述第二状态下可选择的全部操作集合所对应的各个参数值中的最大参数值。上述α和上述γ为预置的常数，可以根据不同的问题设置不同的数值。

本发明实施例中，可以加快目标矩阵的收敛速度，减少到达目标状态所需的时间。

在一种可选的实现方式中，在上述确定与上述室外环境参数相对应的目标室内环境参数之前，上述方法还包括：

获取位于上述目标区域中的可穿戴设备中的数据；

上述确定与上述室外环境参数相对应的目标室内环境参数包括：

依据上述数据确定与上述室外环境参数相对应的目标室内环境参数。

上述可穿戴设备可以是智能手表、智能手环等。上述可穿戴设备与上述服务器具备绑定关系。服务器可以向上述可穿戴设备发送数据获取指令，指示上述可穿戴设备向其发送用户的体征数据如体温、心率、脉搏等。上述可穿戴设备也可以按照一定的周期向上述服务器发送该用户的体征数据，还可以确定位于上述目标区域的情况下，向上述服务器发送该用户的体征数据。上述服务器可以依据上述数据确定位于上述目标区域的用户所处的状态，进而确定上述目标室内环境参数，即用户的热舒适区对应的环境参数。用户在不同状态下所需的热舒适区不同。举例来说，用户在运动后，睡觉时，工作时，所需的热舒适区不同。因此，需要根据用户当前的状态，来确定上述室外环境参数相对应的目标室内环境参数。具体的，可以先确定与上述室外环境参数相对应的目标室内环境参数，再利用预置的方式根据该用户当前的状态对该目标室内环境参数进行调整。举例来说，计算得到室外环境参数对应的目标室内环境参数为(22℃，50％，强)，检测到用户处于睡眠状态，将该目标室内环境参数调整为(24℃，50％，弱)。可以理解的是，可以直接依据上述数据与上述室外环境参数确定上述目标室内环境参数。

本发明实施例中，可以结合用户当前的状态确定目标区域对应的目标室内环境参数，更加准确，提高用户体验。

在一种可选的实现方式中，提供了构建目标矩阵的方法，具体如下：上述构建目标矩阵包括：

获取将上述室内环境从上述第一状态调整到上述目标状态可选择的上述至少两个操作集合所对应的上述参数值，构建上述目标矩阵；

或者，依据上述第一状态下可选择的上述至少两个操作集合与上述目标状态的关系，确定上述可选择的至少两个操作集合对应的上述参数值，构建上述目标矩阵，上述可选择的至少两个操作集合所指定的状态与上述目标状态越接近其对应的参数值越大。

一种可选的方法是从服务器已保存的目标矩阵中获取将上述目标区域从上述第一状态调整到上述目标状态可选择的上述至少两个操作集合所对应的上述参数值，构建上述目标矩阵；也可以是从服务器已保存的矩阵中选择与所述第一状态最接近的矩阵作为所述目标矩阵。

另一种可选的方法是依据上述第一状态下可选择的上述至少两个操作集合与上述目标状态的关系，确定上述可选择的至少两个操作集合对应的上述参数值，构建上述目标矩阵。上述操作集合中包括至少一个表示最终状态的参数。例如，某一操作集合为(26℃，除湿，强)，其中26℃就是该操作集合对应的温度的最终状态。举例来说，如图2所示，当前温度为18℃，目标温度为21℃，不同列的操作集合中的温度不同，如第一列对应的操作集合中的温度为17℃，第二列对应的操作集合中的温度为18℃，依次类推，可以看出操作集合所对应的温度与目标温度越接近其参数值越大。

本发明实施例中，提供了构建目标矩阵的方法，可以加速目标矩阵的收敛速度，减少到达目标状态所需的时间。

本发明实施例提供了另一种环境调节方法，如图3所示，包括：

301、获取目标区域当前的室外环境参数以及室内环境参数；

302、获取位于上述目标区域中的可穿戴设备中的数据；

303、依据上述数据确定与上述室外环境参数相对应的目标室内环境参数；

上述目标室内环境参数表征上述目标区域的目标状态。

304、依据第一状态下可选择的至少两个操作集合与目标状态的关系，确定上述可选择的至少两个操作集合对应的参数值，构建目标矩阵；

305、采用预置的策略选择机制，依据上述目标矩阵确定所要选择的目标操作集合；

306、依据上述目标操作集合生成控制指令，向环境调节装置发送上述控制指令；

307、在发送上述控制指令的预置时间后，确定上述目标区域当前所处的第二状态未达到上述目标状态；

308、计算上述目标操作集合对应的目标值；

309、使用上述目标值更新上述目标矩阵；

310、存储上述目标矩阵。

本发明实施例中，根据目标区域的室外环境参数与室内环境参数的对应关系以及用户的体征数据，确定该目标区域的热舒适区所对应的环境参数；使用强化学习的算法不断学习环境调节装置的特性以及其与目标区域和用户之间的关系，可以快速地通过该环境调节装置将该目标区域调整到用户舒适的状态。

本发明实施例提供了一种服务器，如图4所示，包括：

获取单元401，用于获取目标区域当前的室外环境参数以及室内环境参数，上述室内环境参数表征上述目标区域当前所处的第一状态；

确定单元402，用于确定与上述室外环境参数相对应的目标室内环境参数，上述目标室内环境参数表征上述目标区域的目标状态；

矩阵构建单元403，用于构建目标矩阵，上述目标矩阵的第一行元素为将上述目标区域从上述第一状态调整到上述目标状态可选择的至少两个操作集合所对应的参数值，上述参数值越大将上述目标区域从上述第一状态调整到上述目标状态的可能性越高，上述操作集合包括至少一种类型的调节操作；

上述确定单元402，还用于采用预置的策略选择机制，依据上述目标矩阵确定所要选择的目标操作集合；

生成单元404，用于依据上述目标操作集合生成相应的控制指令，上述控制指令指示上述环境调节装置执行上述目标操作集合所指定的操作；

发送单元405，用于向环境调节装置发送上述控制指令；

上述确定单元402，还用于确定上述目标区域未达到上述目标状态的情况；还用于确定上述目标区域达到上述目标状态；

计算单元406，用于在确定上述目标区域未达到上述目标状态的情况下，依据上述目标区域当前所处的第二状态、上述第一状态以及上述目标状态计算上述目标操作集合对应的目标值；

更新单元407，用于使用上述目标值更新上述目标矩阵。

具体的实现方法和图1中的方法相同，这里不作详述。

在一种可选的实现方式中，上述获取单元401，还用于获取位于上述目标区域中的可穿戴设备中的数据；

上述确定单元402，具体用于依据上述数据确定与上述室外环境参数相对应的目标室内环境参数。

本发明实施例中，可以结合用户当前的状态确定目标区域对应的目标室内环境参数，更加准确。

在一种可选的实现方式中，提供了一种确定与目标区域的室外环境参数相对应的目标室内环境参数的方法，具体如下：上述确定单元402，具体用于确定上述室外环境参数所对应的目标等级序列，上述目标等级序列包含上述室外环境参数中的至少两项参数所对应的等级；确定与上述目标等级序列相对应的至少两个室外环境参数，确定上述至少两个室外环境参数对应的至少两个室内环境参数；确定上述至少两个室内环境参数中与第一等级序列相对应的室内环境参数的数目以及与第二等级序列相对应的室内环境参数的数目，上述第一等级序列和上述第二等级序列均包含室内环境参数中的至少两项参数所对应的等级；在上述第一等级序列对应的室内环境参数的数目大于上述第二等级序列对应的室内环境参数的数目的情况下，确定上述第一等级序列对应的环境参数范围为上述目标室内环境参数。

在一种可选的实现方式中，提供了构建目标矩阵的方法，具体如下：

上述矩阵构建单元403，具体用于获取将上述目标区域从上述第一状态调整到上述目标状态可选择的上述至少两个操作集合所对应的上述参数值，构建上述目标矩阵；

或者，具体用于依据上述第一状态下可选择的上述至少两个操作集合与上述目标状态的关系，确定上述可选择的至少两个操作集合对应的上述参数值，构建上述目标矩阵，上述可选择的至少两个操作集合所指定的状态与上述目标状态越接近其对应的参数值越大。

本发明实施例中，提供了构建目标矩阵的方法，可以加速目标矩阵的收敛速度，减少到达目标状态所需的时间

在一种可选的实现方式中，提供了两种选择目标操作集合方法，具体如下：上述确定单元402，具体用于从上述目标矩阵的第一行中选择数值最大的元素所对应的操作集合，作为上述目标操作集合；

或者，具体用于以概率ε从上述目标矩阵的第一行中筛选出数值最大的N个元素所对应的N个操作集合，并从上述N个操作集合中随机选择一个操作集合，作为上述目标操作集合，上述N为大于1的整数，上述N个元素不包括数值最大的元素；以概率1-ε从上述第一行中选择数值最大的元素所对应的操作集合，作为上述目标操作集合。

本发明实施例中，提出了两种选择目标操作集合方法，可以根据目标矩阵的收敛情况，选择不同的方法，可以提高寻找较优的操作集合的速度。

在一种可选的实现方式中，提供了一种更新目标矩阵的方法，具体如下：上述更新单元407，具体用于使用如下算式更新上述目标矩阵：

Q(s_t,a_t)＝Q(s_t,a_t)+α(R+γmax Q(s_t+1,a)-Q(s_t,a_t))；

算式左边的Q(s_t,a_t)为上述目标操作集合在上述目标矩阵更新后所对应的参数值，算式右边的Q(s_t,a_t)为上述目标操作集合在上述目标矩阵更新前所对应的参数值，上述α和上述γ为预置的常数，上述R为上述目标值，上述max Q(s_t+1,a)为在上述第二状态下可选择的全部操作集合所对应的各个参数值中的最大参数值。

本发明实施例中，可以加快目标矩阵的收敛速度，减少目标区域达到目标状态所需的时间。

请参见图5，图5是本发明实施例提供的一种服务器，该服务器包括处理器501、存储器502、接收器503、发送器504，在本发明的一些实施例中，处理器501、存储器502、接收器503、发送器504可通过总线或者其它方式连接。

存储器502包括但不限于是随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或者快闪存储器)、或便携式只读存储器(CD-ROM)，该存储器502用于相关指令及数据。

上述服务器中的处理器501用于读取上述存储器502中存储的程序代码后，执行以下操作：

获取目标区域当前的室外环境参数以及室内环境参数，确定与上述室外环境参数相对应的目标室内环境参数，上述室内环境参数表征上述目标区域当前所处的第一状态，上述目标室内环境参数表征上述目标区域的目标状态；构建目标矩阵，上述目标矩阵的第一行元素为将上述目标区域从上述第一状态调整到上述目标状态可选择的至少两个操作集合所对应的参数值，上述参数值越大将上述目标区域从上述第一状态调整到上述目标状态的可能性越高，上述操作集合包括至少一种类型的调节操作；采用预置的策略选择机制，依据上述目标矩阵确定所要选择的目标操作集合，生成相应的控制指令，向环境调节装置发送上述控制指令，上述控制指令指示上述环境调节装置执行上述目标操作集合所指定的操作；在确定上述目标区域未达到上述目标状态的情况下，依据上述目标区域当前所处的第二状态、上述第一状态以及上述目标状态计算上述目标操作集合对应的目标值，使用上述目标值更新上述目标矩阵。

具体实现方法和图1中的方法相同，这里不作详述。

获取位于上述目标区域中的可穿戴设备中的数据；

在一种可选的实现方式中，提供了一种确定与目标区域的室外环境参数相对应的室内环境参数的方法，具体如下：处理器501，具体用于确定上述室外环境参数所对应的目标等级序列，上述目标等级序列包含上述室外环境参数中的至少两项参数所对应的等级；确定与上述目标等级序列相对应的至少两个室外环境参数，确定上述至少两个室外环境参数对应的至少两个室内环境参数；确定上述至少两个室内环境参数中与第一等级序列相对应的室内环境参数的数目以及与第二等级序列相对应的室内环境参数的数目，上述第一等级序列和上述第二等级序列均包含室内环境参数中的至少两项参数所对应的等级；在上述第一等级序列对应的室内环境参数的数目大于上述第二等级序列对应的室内环境参数的数目的情况下，确定上述第一等级序列对应的环境参数范围为上述目标室内环境参数。

在一种可选的实现方式中，提供了构建目标矩阵的方法，具体如下：上述处理器501，具体用于获取将上述目标区域从上述第一状态调整到上述目标状态可选择的上述至少两个操作集合所对应的上述参数值，构建上述目标矩阵；或者，具体用于依据上述第一状态下可选择的上述至少两个操作集合与上述目标状态的关系，确定上述可选择的至少两个操作集合对应的上述参数值，构建上述目标矩阵，上述可选择的至少两个操作集合所指定的状态与上述目标状态越接近其对应的参数值越大。

本发明实施例中，提供了构建目标矩阵的方法，可以加速目标矩阵的收敛速度，减少目标区域达到目标状态所需的时间。

在一种可选的实现方式中，提供了两种选择目标操作集合方法，具体如下：处理器501，具体用于从上述目标矩阵的第一行中选择数值最大的元素所对应的操作集合，作为上述目标操作集合；

在一种可选的实现方式中，提供了一种更新目标矩阵的方法，具体如下：上述处理器501，具体用于使用如下算式更新上述目标矩阵：

Q(s_t,a_t)＝Q(s_t,a_t)+α(R+γmax Q(s_t+1,a)-Q(s_t,a_t))；

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种环境调节方法，其特征在于，包括：

2.根据权利要求1所述方法，其特征在于，在所述确定与所述室外环境参数相对应的目标室内环境参数之前，所述方法还包括：

获取位于所述目标区域中的可穿戴设备中的数据；

所述确定与所述室外环境参数相对应的目标室内环境参数包括：

依据所述数据确定与所述室外环境参数相对应的所述目标室内环境参数。

3.根据权利要求1所述方法，其特征在于，所述确定与所述室外环境参数相对应的目标室内环境参数包括：

确定所述室外环境参数所对应的目标等级序列，所述目标等级序列包含所述室外环境参数中的至少两项参数所对应的等级；

确定与所述目标等级序列相对应的至少两个室外环境参数，确定所述至少两个室外环境参数对应的至少两个室内环境参数；

确定所述至少两个室内环境参数中与第一等级序列相对应的室内环境参数的数目以及与第二等级序列相对应的室内环境参数的数目，所述第一等级序列和所述第二等级序列均包含室内环境参数中的至少两项参数所对应的等级；

在所述第一等级序列对应的室内环境参数的数目大于所述第二等级序列对应的室内环境参数的数目的情况下，确定所述第一等级序列对应的环境参数范围为所述目标室内环境参数。

4.根据权利要求1所述方法，其特征在于，所述构建目标矩阵包括：

获取将所述目标区域从所述第一状态调整到所述目标状态可选择的所述至少两个操作集合所对应的所述参数值，构建所述目标矩阵；

或者，依据所述第一状态下可选择的所述至少两个操作集合与所述目标状态的关系，确定所述可选择的至少两个操作集合对应的所述参数值，构建所述目标矩阵，所述可选择的至少两个操作集合所指定的状态与所述目标状态越接近其对应的参数值越大。

5.根据权利要求4所述方法，其特征在于，所述采用预置的策略选择机制，依据所述目标矩阵确定所要选择的目标操作集合包括：

从所述目标矩阵的第一行中选择数值最大的元素所对应的操作集合，作为所述目标操作集合；

或者，以概率ε从所述目标矩阵的第一行中筛选出数值最大的N个元素所对应的N个操作集合，并从所述N个操作集合中随机选择一个操作集合，作为所述目标操作集合，所述N为大于1的整数，所述N个元素不包括数值最大的元素；以概率1-ε从所述第一行中选择数值最大的元素所对应的操作集合，作为所述目标操作集合。

6.根据权利要求1至5任意一项所述方法，其特征在于，所述使用所述目标值更新所述目标矩阵包括：

使用如下算式更新所述目标矩阵：

Q(s_t,a_t)＝Q(s_t,a_t)+α(R+γmax Q(s_t+1,a)-Q(s_t,a_t))；

算式左边的Q(s_t,a_t)为所述目标操作集合在所述目标矩阵更新后所对应的参数值，算式右边的Q(s_t,a_t)为所述目标操作集合在所述目标矩阵更新前所对应的参数值，所述α和所述γ为预置的常数，所述R为所述目标值，所述max Q(s_t+1,a)为在所述第二状态下可选择的全部操作集合所对应的各个参数值中的最大参数值。

7.一种服务器，其特征在于，包括：

生成单元，用于依据所述目标操作集合生成相应的控制指令，所述控制指令指示环境调节装置执行所述目标操作集合所指定的操作；

发送单元，用于向所述环境调节装置发送所述控制指令；

更新单元，用于使用所述目标值更新所述目标矩阵。

8.根据权利要求7所述服务器，其特征在于，

所述获取单元，还用于获取位于所述目标区域中的可穿戴设备中的数据；

所述确定单元，具体用于依据所述数据确定与所述室外环境参数相对应的所述目标室内环境参数。

9.根据权利要求7所述服务器，其特征在于，

所述确定单元，具体用于确定所述室外环境参数所对应的目标等级序列，所述目标等级序列包含所述室外环境参数中的至少两项参数所对应的等级；确定与所述目标等级序列相对应的至少两个室外环境参数，确定所述至少两个室外环境参数相对应的至少两个室内环境参数；确定所述至少两个室内环境参数中与第一等级序列相对应的室内环境参数的数目以及与第二等级序列相对应的室内环境参数的数目，所述第一等级序列和所述第二等级序列均包含室内环境参数中的至少两项参数所对应的等级；在所述第一等级序列对应的室内环境参数的数目大于所述第二等级序列对应的室内环境参数的数目的情况下，确定所述第一等级序列对应的环境参数范围为所述目标室内环境参数。

10.根据权利要求7所述服务器，其特征在于，

所述矩阵构建单元，具体用于获取将所述目标区域从所述第一状态调整到所述目标状态可选择的所述至少两个操作集合所对应的所述参数值，构建所述目标矩阵；

或者，具体用于依据所述第一状态下可选择的所述至少两个操作集合与所述目标状态的关系，确定所述可选择的至少两个操作集合对应的所述参数值，构建所述目标矩阵，所述可选择的至少两个操作集合所指定的状态与所述目标状态越接近其对应的参数值越大。

11.根据权利要求10所述服务器，其特征在于，

所述确定单元，具体用于从所述目标矩阵的第一行中选择数值最大的元素所对应的操作集合，作为所述目标操作集合；

或者，具体用于以概率ε从所述目标矩阵的第一行中筛选出数值最大的N个元素所对应的N个操作集合，并从所述N个操作集合中随机选择一个操作集合，作为所述目标操作集合，所述N为大于1的整数，所述N个元素不包括数值最大的元素；以概率1-ε从所述第一行中选择数值最大的元素所对应的操作集合，作为所述目标操作集合。

12.根据权利要求7至11任意一项所述服务器，其特征在于，

所述更新单元，具体用于使用如下算式更新所述目标矩阵：

Q(s_t,a_t)＝Q(s_t,a_t)+α(R+γmax Q(s_t+1,a)-Q(s_t,a_t))；