CN114714845B

CN114714845B - 一种汽车空调温度调节方法及系统

Info

Publication number: CN114714845B
Application number: CN202110002754.0A
Authority: CN
Inventors: 陈超; 何小军; 辛聪; 李璐; 陈烯桐; 黄昊
Original assignee: Guangzhou Automobile Group Co Ltd
Current assignee: Guangzhou Automobile Group Co Ltd
Priority date: 2021-01-04
Filing date: 2021-01-04
Publication date: 2024-03-19
Anticipated expiration: 2041-01-04
Also published as: CN114714845A

Abstract

本发明公开了一种汽车空调温度调节方法及系统，方法包括：按照预设时间周期，采集车辆内的当前环境状态数据，构建当前环境状态向量；从预设的奖励值表确定与当前环境状态向量对应的所有奖励值中的最大值，将最大值对应的目标温度作为当前目标温度；实时检测当前目标温度维持的第一时长，根据第一时长确定奖励调整值，并根据奖励调整值更新与当前环境状态向量对应的所有奖励值中的最大值；实时检测新目标温度维持的第二时长，当第二时长大于第一时长时，增大对应的奖励值；按照预设的周期，重复前述步骤，动态调整空调目标温度。本发明基于目标温度的维持时间来获知用户对空调温度调节策略的反馈，并更新奖励值表，温度调节更符合用户感知。

Description

一种汽车空调温度调节方法及系统

技术领域

本发明属于汽车空调领域，具体涉及一种汽车空调温度调节方法及系统。

背景技术

汽车车内空调温度控制，一般是由用户手动输入设置空调目标温度值，然而输入的目标温度值未必是适合用户的最佳温度，用户在后续过程中可能还需要继续地、甚至反复地进行调整。

还有一种方法是基于车外温度确定空调温度，自主调节车内空调温度，这种方法虽然能智能化调节车内空调温度，不需要用户输入，但是不同的用户对温度的舒适性感知并不相同，相同的环境温度下有的人感觉到热，但有的人感觉到冷或正好舒适，这种基于车外温度来确定目标温度的控制策略相对固定化，并不能准确地输出符合用户感知和温度环境的空调温度。

发明内容

本发明实施例所要解决的技术问题在于，提供一种汽车空调温度调节方法及系统，以解决现有的汽车空调调节方法不能准确地输出符合用户感知和温度环境的空调温度的问题。

为解决上述技术问题，本发明提供一种汽车空调温度调节方法，包括：

步骤S1，按照预设时间周期，采集车辆内的当前环境状态数据，构建当前环境状态向量，所述当前环境状态数据包括当前车内温度、乘车人数和当前车外温度；

步骤S2，从预设的奖励值表确定与所述当前环境状态向量对应的所有奖励值中的最大值，将所述最大值对应的目标温度作为当前目标温度；

步骤S3，将空调的目标温度设置为所述当前目标温度，实时检测所述当前目标温度维持的第一时长，根据所述第一时长确定奖励调整值，并根据所述奖励调整值更新与所述当前环境状态向量对应的所有奖励值中的最大值；

步骤S4，获取所述当前目标温度被用户调整后的新目标温度，并实时检测所述新目标温度维持的第二时长，当所述第二时长大于所述第一时长时，增大所述奖励值表中所述当前环境状态向量所对应的奖励值；

步骤S5，按照预设的周期，重复步骤S1-步骤S4，动态调整空调目标温度。

进一步地，所述预设的奖励值表包括若干个奖励值Q(S，T)，每一个奖励值Q与一个环境状态向量S和一个目标温度T对应，其中，所述环境状态向量S＝[T_IN,C_P,T_OUT]，T_IN为车内温度，C_P为乘车人数，T_OUT为车外温度。

进一步地，所述步骤S2具体包括：随机生成一参考值x∈[0,1]，当x＞A时，从所述奖励值表确定与所述当前环境状态向量S_r对应的所有奖励值中的最大值Q_max，Q_max所对应的目标温度作为当前目标温度T_aim，A为预设的探索系数，A∈[0,1]。

进一步地，所述步骤S5还包括：

当更新的探索系数与更新之前的探索系数比值在[1-δ，1]区间时，按照预设的周期，根据所述当前环境状态向量S_r对应的所有奖励值中的最大值Q_max确定当前目标温度T_aim，动态调整空调目标温度，δ为预设的极小值。

进一步地，所述步骤S2还包括：当x≤A时，在所述奖励值表与所述当前环境状态向量S_r对应的所有目标温度中随机选定一个目标温度作为当前目标温度T_aim；

所述步骤S3还包括：将所述探索系数A的值更新为A′：

其中，r_decay为预设的探索系数衰减系数，r_decay取值为[0,1]，global_step为探索系数的更新次数，decay_step为预设的衰减总步数。

进一步地，所述奖励调整值R(S,T)的计算方法如下：

其中，T_d为预设时长，ΔT为第一时长；

所述根据奖励调整值更新与所述当前环境状态向量对应的所有奖励值中的最大值具体为：将所述奖励值R(S_r,T_aim)与所述最大值Q_max相加，得到更新的奖励值Q_new。

一种汽车空调温度调节系统，包括：

环境状态向量构建单元，用于按照预设时间周期，采集车辆内的当前环境状态数据，构建当前环境状态向量，所述当前环境状态数据包括当前车内温度、乘车人数和当前车外温度；

目标温度确定单元，用于从预设的奖励值表确定与所述当前环境状态向量对应的所有奖励值中的最大值，将所述最大值对应的目标温度作为当前目标温度；

第一奖励值调整单元，用于将空调的目标温度设置为所述当前目标温度，实时检测所述当前目标温度维持的第一时长，根据所述第一时长确定奖励调整值，并根据所述奖励调整值更新与所述当前环境状态向量对应的所有奖励值中的最大值；

第二奖励值调整单元，用于获取所述当前目标温度被用户调整后的新目标温度，并实时检测所述新目标温度维持的第二时长，当所述第二时长大于所述第一时长时，增大所述奖励值表中所述当前环境状态向量所对应的奖励值；

目标温度调整单元，用于按照预设的周期，重复步骤S1-步骤S4，动态调整空调目标温度。

进一步地，所述的汽车空调温度调节系统还包括奖励值存储单元，用于存储所述预设的奖励值表，所述奖励值表包括若干个奖励值Q(S，T)，每一个奖励值Q与一个环境状态向量S和一个目标温度T对应，其中，所述环境状态向量S＝[T_IN,C_P,T_OUT]，T_IN为车内温度，C_P为乘车人数，T_OUT为车外温度。

进一步地，所述目标温度确定单元，具体用于随机生成一参考值x∈[0,1]，当x＞A时，从所述奖励值表确定与所述当前环境状态向量S_r对应的所有奖励值中的最大值Q_max，Q_max所对应的目标温度作为当前目标温度T_aim，A为预设的探索系数，A∈[0,1]。

进一步地，所述目标温度调整单元，还用于当更新的探索系数与更新之前的探索系数比值在[1-δ，1]区间时，按照预设的周期，根据所述当前环境状态向量S_r对应的所有奖励值中的最大值Q_max确定当前目标温度T_aim，动态调整空调目标温度，δ为预设的极小值。

进一步地，所述目标温度确定单元，还用于当x≤A时，在所述奖励值表与所述当前环境状态向量S_r对应的所有目标温度中随机选定一个目标温度作为当前目标温度T_aim。

第一奖励值调整单元，还用于将所述探索系数A的值更新为A′：

进一步地，奖励值调整值R(S,T)的计算公式如下：

其中，T_d为预设时长；

实施本发明实施例，具有如下有益效果：本发明考虑了车内温度、乘车人数、车外温度等多维度参数进行车内空调温度调节，且基于奖励值来学习并选定当前目标温度，能够基于当前目标温度的维持时间来获知用户对空调温度调节策略的反馈，并根据当前目标温度的维持时长来更新奖励值表，以及根据用户调整的温度所维持的时长来更新奖励值表，能够获得符合用户感知在不同温度环境下的空调温度调节策略，更准确地调节车辆空调温度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一的汽车空调温度调节方法的流程示意图。

图2为本发明实施例二的汽车空调温度调节方法的流程示意图。

具体实施方式

以下各实施例的说明是参考附图，用以示例本发明可以用以实施的特定实施例。

请参照图1所示，本发明实施例一提供一种汽车空调温度调节方法，包括步骤S101-S105。

步骤S101，按照预设时间周期，采集车辆内的当前环境状态数据，构建当前环境状态向量，所述当前环境状态数据包括当前车内温度、乘车人数和当前车外温度。

具体地，可以预先建立如下表1所示的奖励值表，表格中包含若干奖励值，每一个奖励值Q(S，T_aim)分别对应一个环境状态向量S，和目标温度T_aim，其中，环境状态向量由环境状态数据构成，S＝[T_IN,C_P,T_OUT]，T_IN为车内温度，C_P为乘车人数，T_OUT为车外温度，表格中奖励值可根据用户习惯设定初始值，表格行数和列数根据精度需要进行删减。

表1奖励值表

应用时，可以先检测车外的温度以及车内的温度，车内人数可以由用户输入，也可以通过在车内设置座位压力传感器或者摄像头自动识别车内人数。按照预设时间周期，例如每隔5分钟采集一次当前环境状态数据，根据当前环境状态数据构建当前环境状态向量。

步骤S102，从预设的奖励值表确定与所述当前环境状态向量对应的所有奖励值中的最大值，将所述最大值对应的目标温度作为当前目标温度。

在获取当前环境状态向量S_r后，从奖励值表进行检索，确定S_r行中最大的奖励值Q_max，Q_max唯一对应的温度作为当前目标温度T_aim，即Q_max＝Q(S_r,T_aim)。例如，当前环境状态向量为S₁时，从Q(S1，T1)～Q(S1，Tk)中确定出最大值Q_max，以Q_max所对应的目标温度作为当前目标温度T_aim。

步骤S103，将空调的目标温度设置为所述当前目标温度，实时检测所述当前目标温度维持的第一时长，根据所述第一时长确定奖励调整值，并根据所述奖励调整值更新与所述当前环境状态向量对应的所有奖励值中的最大值。

具体地，确定当前目标温度T_aim后，系统将空调温度设置为T_aim，并在车内温度达到T_aim后，开始计时，实时计算T_aim持续的第一时长ΔT，若中途T_aim被用户更改，即目标温度被重新设置，则记录ΔT。根据ΔT的大小确定奖励值Q(S_r,T_aim)的调整值R(S_r,T_aim)。当ΔT较大时，比如超过设定的上限值，则增大对应的奖励值；当ΔT较小时，即用户较早地更改了目标温度设定值，则减小对应的奖励值，具体增减幅度以及划分多少个等级可根据需要进行设定。

本发明提供了一种奖励值调整值R(S,T)的计算方法实施例，计算公式如下：

其中，T_d为预设时长。即当车内温度还未到达T_aim就被用户更改了，Q(S_r,T_aim)减小1；当车内温度达到T_aim，但所持续的时间较短，低于T_d时，Q(S_r,T_aim)增大当车内温度达到T_aim后所持续的时间较大时，Q(S_r,T_aim)增大1。

步骤S104，获取所述当前目标温度被用户调整后的新目标温度，并实时检测所述新目标温度维持的第二时长，当所述第二时长大于所述第一时长时，增大所述奖励值表中所述当前环境状态向量所对应的奖励值。

当用户重新设置了空调目标温度后，获取新的目标温度T_a′_im，然后持续检测T_a′_im所维持的第二时长ΔT′，当ΔT′＞ΔT时，说明新的目标温度T_a′_im比上一次的目标温度T_aim更符合用户需求，可以给奖励值表中(S_r,T_a′_im)对应的奖励值Q(S_r,T_a′_im)增大，增大值可以参考前述的策略进行定义和设置。

步骤S105，按照预设的周期，重复步骤S1-步骤S4，动态调整空调目标温度。

可以设置为5分钟进行一次检测，并根据计算结果调整空调目标温度。这样可以确保能够获得最新的环境状态向量，并设置相应的目标温度。例如，该段时间内用户从较热的车库开到了阴凉的空旷道路，或者该段时间发生了乘客上下车，此时有必要对目标温度进行调整。并且在调整目标温度的过程中，奖励值表也会随之得到更新。总体上，奖励值表中Q值越大，相应的环境状态向量对应的目标温度值越符合用户的使用习惯。

本发明考虑了车内温度、乘车人数、车外温度等多维度参数进行车内空调温度调节，且基于奖励值来学习并选定当前目标温度，能够基于当前目标温度的维持时间来获知用户对空调温度调节策略的反馈，并根据当前目标温度的维持时长来更新奖励值表，以及根据用户调整的温度所维持的时长来更新奖励值表，能够获得符合用户感知在不同温度环境下的空调温度调节策略，更准确地调节车辆空调温度。

可选的，本发明实施例中，当前目标温度T_aim可以采用下策略进行选取：(1)以A(取值区间为[0,1])的概率在奖励值表的所有目标温度中随机选定一个目标温度作为当前目标温度，即从T₁～T_k中随机选取一个作为当前目标温度T_aim；(2)以1-A的概率参考奖励值的大小来选取当前目标温度T_aim，具体是从奖励值表中确定与当前环境状态向量S_r对应的奖励值中的最大值Q_max，以Q_max所对应的目标温度作为当前目标温度T_aim。

基于上述目标温度选择逻辑，本发明实施例二提供了一种汽车空调温度调节方法如图2所示，其中，目标温度T_aim的选择具体执行过程如下：

预先设置一探索系数A∈[0,1]，每次执行选取当前目标温度时，随机生成一参考值x∈[0,1]，当x≤A时，按照前述第(1)种方式即步骤S202B，在奖励值表中随机选择当前目标温度；当x＞A时，按照前述第(2)种方式即步骤S202A，选择Q_max对应的温度作为当前目标温度。每次执行时，两种方法被选择的概率分别为A和1-A，具体由随机生成的参考值x与设定的A的大小来决定。由于x是随机生成的，如果A越大，那么x落入[0，A]的概率就越大，相反，A越小，则x落入[A，1]的概率就越大。本方法可以使奖励值表中每个数据得到最大程度的更新，并能准确反映用户对空调温度的感知结果。

基于概率选择当前目标温度的方法，在步骤S203中，需要对探索系数A一并进行更新，本发明提供了一种更新探索系数A的实施例，设更新为后的值为A′：

其中，r_decay为预设的探索系数衰减系数，r_decay取值为[0,1]，global_step为探索系数的更新次数，decay_step为预设的衰减总步数。上述计算公式只是本发明的一个实施例，只要是经过足够多次更新后，探索系数趋于收敛至一个稳定值即可，本发明对具体的更新方法不做限制。

因此，进一步地，经过足够多次更新后，当更新的探索系数与更新之前的探索系数比值在[1-δ，1]区间时，δ为预设的极小值，例如可设置为0.001，则说明探索系数已经趋于稳定值，此时可以停止步骤S202-步骤S204的循环计算，按照预设的周期，直接从奖励值表中读取当前目标温度值即可，即根据当前环境状态向量S_r对应的所有奖励值中的最大值Q_max确定当前目标温度T_aim，不需要再对奖励值表进行更新了，免去过多的计算。

需要说明的是，按照前述第(2)种方式以Q_max所对应的目标温度作为当前目标温度时，探索系数A的更新为可选步骤，并非必要步骤。

相应于本发明实施例一提供的汽车空调温度调节方法，本发明实施例三还提供一种汽车空调温度调节系统，包括：

进一步地，系统还包括奖励值存储单元，用于存储所述预设的奖励值表，所述奖励值表包括若干个奖励值Q(S，T)，每一个奖励值Q与一个环境状态向量S和一个目标温度T对应，其中，所述环境状态向量S＝[T_IN,C_P,T_OUT]，T_IN为车内温度，C_P为乘车人数，T_OUT为车外温度。

有关本实施例车辆证书管理装置的工作原理和过程，参见前述本发明实施例一的说明，此处不再赘述。

下面以具体实施例对本发明作进一步说明。

假设预先维护的奖励值表如下：

表2奖励值表

(探索系数A的初始值为0.9，T_d＝5min，r_decay＝0.7)

动态调整车辆目标温度的过程如下：

步骤1、采集车辆当前环境状态数据，假如环境状态数据为S₁，构建当前环境状态向量S₁＝[28,5,32]。

步骤2、随机生成一个数值x＝0.3，由于0.3<0.9，则在奖励值表的所有目标温度中随机选定一个目标温度作为当前目标温度T_aim，假设随机选择了22度作为当前目标温度T_aim。

步骤3、车辆空调温度设置为22度后，空调对车内温度进行调节，车辆内的温度从28度向22度逐渐降低，在降低过程中，车内用户可能会继续微调，具体包括如下三种情况：(1)假设25度是适宜的温度，当车内温度降低到24时，用户感觉不适，自己调整了温度到25度，则说明当前目标温度22度所维持的时长ΔT＝0；(2)假设23度是适宜的温度，当车内温度降低到22度时，由于22度与用户感知的适宜温度相差较小，可能车内温度维持了2分钟后，用户才觉得有点冷，用户进行温度调节，调到23度，则可以获得当前目标温度22度所维持的时长ΔT＝2分钟；(3)假设车内温度22度是用户觉得舒适的环境，用户在车内为22度温度下待了超过设置的阈值T_d＝5分钟。

三种情况下对奖励值分别更新如下(初始值Q＝5)：

(1)R[S₁,T₁]＝R[28,5,32,22]＝-1；

Q_new＝-1+5＝4。

(2)R[S₁,T₁]＝R[28,5,32,22]＝2/5＝0.4；

Q_new＝0.4+5＝5.4。

(3)R[S₁,T₁]＝R[28,5,32,22]＝2/5＝1；

Q_new＝1+5＝6。

步骤4、更新探索系数A，预设的衰减总步数为100，当前为第一次更新。

结束第一次更新，根据预设的周期，例如10分钟，再循环执行步骤1-4，第二次执行时，加入第一次更新是执行了步骤3中的第(2)中情况，则奖励表中Q[(S1，T1)]＝5已经更新为Q[(S1，T1)]＝5.4。第二次执行过程如下：

步骤1、采集车辆内的当前环境状态数据，假如环境未发生变化，当前环境状态向量S1＝[28,5,32]。

步骤2、随机生成一个数值x＝0.98，由于0.98>0.9，则从奖励值表中确定与S1对应的奖励值(即第一行的Q值)中的最大值，以Q_max＝6所对应的目标温度23作为当前目标温度T_aim。

步骤3、车辆空调温度设置为23度后，空调对车内温度进行调节，车辆内的温度从28度向23度逐渐降低，在降低过程中，假设车内温度23是用户舒适的环境，即车内为23度温度维持了超过5分钟。

R[S₁,T₁]＝R[28,5,32,22]＝1；

Q_new＝1+6＝7。

步骤4、更新探索系数A，当前为第二次更新。

根据设定的周期，按照上述方法循环计算，奖励值Q将不断更新，越符合用户需求的温度的Q将越高，随着A’的值不断变小，将越来越大的几率是通过奖励值Q选出目标温度，而不是随机选择一个温度，由此，逐渐执行后，奖励值表将趋于稳定，获得每一环境状态向量所对应的最大的Q值即为该环境状态向量下用户感觉最适宜的温度。

通过上述说明可知，与现有技术相比，本发明的有益效果在于：本发明考虑了车内温度、乘车人数、车外温度等多维度参数进行车内空调温度调节，且基于奖励值来学习并选定当前目标温度，能够基于当前目标温度的维持时间来获知用户对空调温度调节策略的反馈，并根据当前目标温度的维持时长来更新奖励值表，以及根据用户调整的温度所维持的时长来更新奖励值表，能够获得符合用户感知在不同温度环境下的空调温度调节策略，更准确地调节车辆空调温度。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种汽车空调温度调节方法，其特征在于，包括：

2.根据权利要求1所述的汽车空调温度调节方法，其特征在于，所述预设的奖励值表包括若干个奖励值Q(S，T)，每一个奖励值Q与一个环境状态向量S和一个目标温度T对应，其中，所述环境状态向量S＝[T_IN,C_P,T_OUT]，T_IN为车内温度，C_P为乘车人数，T_OUT为车外温度。

3.根据权利要求1所述的汽车空调温度调节方法，其特征在于，所述步骤S2具体包括：随机生成一参考值x∈[0,1]，当x＞A时，从所述奖励值表确定与所述当前环境状态向量S_r对应的所有奖励值中的最大值Q_max，Q_max所对应的目标温度作为当前目标温度T_aim，A为预设的探索系数，A∈[0,1]。

4.根据权利要求3所述的汽车空调温度调节方法，其特征在于，所述步骤S5还包括：

5.根据权利要求3所述的汽车空调温度调节方法，其特征在于，所述步骤S2还包括：当x≤A时，在所述奖励值表与所述当前环境状态向量S_r对应的所有目标温度中随机选定一个目标温度作为当前目标温度T_aim；

所述步骤S3还包括：将所述探索系数A的值更新为A′：

6.根据权利要求4-5任一项所述的汽车空调温度调节方法，其特征在于，所述奖励调整值R(S,T)的计算方法如下：

其中，T_d为预设时长，ΔT为第一时长；

7.一种汽车空调温度调节系统，其特征在于，包括：

8.根据权利要求7所述的汽车空调温度调节系统，其特征在于，还包括奖励值存储单元，用于存储所述预设的奖励值表，所述奖励值表包括若干个奖励值Q(S，T)，每一个奖励值Q与一个环境状态向量S和一个目标温度T对应，其中，所述环境状态向量S＝[T_IN,C_P,T_OUT]，T_IN为车内温度，C_P为乘车人数，T_OUT为车外温度。

9.根据权利要求7所述的汽车空调温度调节系统，其特征在于，所述目标温度确定单元，具体用于随机生成一参考值x∈[0,1]，当x＞A时，从所述奖励值表确定与所述当前环境状态向量S_r对应的所有奖励值中的最大值Q_max，Q_max所对应的目标温度作为当前目标温度T_aim，A为预设的探索系数，A∈[0,1]。

10.根据权利要求9所述的汽车空调温度调节系统，其特征在于，所述目标温度调整单元，还用于当更新的探索系数与更新之前的探索系数比值在[1-δ，1]区间时，按照预设的周期，根据所述当前环境状态向量S_r对应的所有奖励值中的最大值Q_max确定当前目标温度T_aim，动态调整空调目标温度，δ为预设的极小值。

11.根据权利要求9所述的汽车空调温度调节系统，其特征在于，所述目标温度确定单元，还用于当x≤A时，在所述奖励值表与所述当前环境状态向量S_r对应的所有目标温度中随机选定一个目标温度作为当前目标温度T_aim；

12.根据权利要求10-11任一项所述的汽车空调温度调节系统，其特征在于，奖励值调整值R(S,T)的计算公式如下：

其中，T_d为预设时长；