CN106909972A

CN106909972A - 一种传感器数据校准模型的学习方法

Info

Publication number: CN106909972A
Application number: CN201710014247.2A
Authority: CN
Inventors: 董玮; 卜佳俊; 高艺; 陈纯; 陈远
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2017-01-09
Filing date: 2017-01-09
Publication date: 2017-06-30
Anticipated expiration: 2037-01-09
Also published as: CN106909972B

Abstract

传感器数据校准模型的学习方法，步骤为：1.选择合适的线性学习器和非线性学习器分别针对初始样本进行训练，利用权重二次学习得到的权重判断线性学习器和非线性学习器的重要性。2.通过相关理论控制第一轮学习器的学习程度，线性学习器通过信息准则选择合适的特征子集，非线性学习器通过随机森林的特征选择方法选择合适的特征子集。3.选择重要性强的学习器作为第一轮学习器，第一轮学习器针对初始样本进行训练，第二轮学习器针对第一轮学习器学习后的残差进行学习。

Description

一种传感器数据校准模型的学习方法

技术领域

本发明涉及一种传感器数据校准模型的学习方法，特别是线性学习器和非线性学习器的重要性判定、学习程度的控制方法以及线性学习器和非线性学习器的结合方法。

背景技术

由于受到时间偏移，环境因素，移动场景等方面的影响，传感器的数据较真实值之间具有较大的偏差。Air-cloud使用实现了面向每个人的空气质量监测系统，其中实验表明PM2.5传感器的原始数据和真实值之间的关系是非线性的。融合了温湿度特征，Air-cloud使用基于线性人工神经网络的校准方法，并在云端实现了数据校准的模型。基于神经网络的多元线性回归模型相对于一元线性回归有了较大提升，但校准后数据相对于真实值偏差仍然较大。目前数据校准方法都是基于多元线性回归模型，在粒子传感器的数据校准上表现较差。

机器学习的回归方法可以分为线性回归方法和树回归方法。线性回归方法可以分为最小二乘回归，岭回归，基于人工神经网络的多元线性回归。性回归方法可以有效的拟合所有样本点(局部加权线性回归除外)。当数据拥有众多特征并且特征之间关系十分复杂时，构建全局模型的想法一个是困难一个是笨拙。此外，实际中很多问题为非线性的，例如常见到的分段函数，不可能用全局线性模型来进行拟合。树回归将数据集切分成多份易建模的数据，然后利用线性回归进行建模和拟合。最经典的树回归是CART(classificationand regression trees，分类回归树)算法。利用集成学习将多个基回归器组合，可以起到增强的作用。目前随机森林回归和渐进梯度回归树(GBRT)。

针对多元线性回归模型在数据校准中缺点，本文提出了一种传感器数据校准模型的学习方法。

发明内容

本发明要克服现有技术的上述缺点,提供了一种传感器数据校准特征的提取和评估方法。

为实现以上目的，本发明所采取的技术方案是：一种传感器数据校准模型的学习方法，包括以下步骤：

步骤1，线性学习器和非线性学习器的重要性学习，包括：

(1.1)选择学习器，选择合适的线性学习器和非线性学习器。线性学习器选择多元线性回归模型，如线性人工神经网络(ANN)和多元最小二乘；非线性学习器选择树回归模型，如CART回归树，随机森林和渐进梯度回归树(GBRT)。

(1.2)学习器的多样性增强，通过引入数据样本扰动和输入属性扰动来增强学习器的多样性。

(1.3)学习器训练，分别对线性学习器和非线性学习器进行训练。

(1.4)权重的二次学习，利用二次学习法来学习线性学习器和非线性学习的权重。

(1.5)重要性判断，通过权重的值来判断线性学习器和非线性学习器结合策略

步骤2，通过相关理论控制第一轮学习的程度，包括：

(2.1)控制第一轮学习的程度，通过输入特征子集来控制第一轮学习的程度，通过相关理论来选择合适的特征子集。

(2.1.1)线性学习器的模型选择，线性学习器的特征子集选择，通过信息准则的思想来选择合适的特征子集，信息准则给出了模型的准确率和模型的复杂性权衡的方程，选择最流行的信息准则，赤池信息量准则(AIC)。

(2.1.2)非线性学习器的模型选择，非线性学习器的特征子集选择，可以使用随机森林的特征重要性评估方法。

步骤3，线性学习和非线性学习器结合

(3.1)第一轮学习，基于步骤(1.5)中的结论，选择重要性强的学习器进行第一轮训练，通过步骤2中的方法为步骤2中的学习器选择合适的特征子集，学习出合适的第一轮学习器模型。

(3.2)生成第二轮训练样本，用学习好的第一轮学习器的学习残差结合第一轮的训练样本生成第二轮的训练样本。

(3.3)第二轮残差的学习，用重要性较弱的传感器基于第二轮的训练样本进行残差的学习。

本发明的有益效果是：本方法提出了线性学习器和非线性学习器的重要性判定方法和线性学习器和非线性学习器的结合方法。提出了控制第一轮学习程度的方法。

附图说明

图1是本发明方法的工作流程图。

具体实施方式

下面结合附图对本发明作进一步描述。本发明的具体实施方式如下：

步骤1，线性学习器和非线性学习器的重要性学习，包括：

(1.3)选择学习器，选择合适的线性学习器和非线性学习器。线性学习器选择多元线性回归模型，如线性人工神经网络(ANN)和多元最小二乘；非线性学习器选择树回归模型，如CART回归树，随机森林和渐进梯度回归树(GBRT)。

(1.4)学习器的多样性增强，通过引入数据样本扰动和输入属性扰动来增强学习器的多样性。

(1.4)权重的二次学习，利用二次学习法来学习线性学习器和非线性学习的权重。权重的二次学习采取stacking-MLS的二次学习法。

(1.5)重要性判断，通过权重的值来判断线性学习器和非线性学习器结合策略。

步骤2，通过相关理论控制第一轮学习的程度，包括：

(2.1.1)线性学习器的模型选择，线性学习器的特征子集选择，通过信息准则的思想来选择合适的特征子集，信息准则给出了模型的准确率和模型的复杂性权衡的方程，选择最流行的信息准则，赤池信息量准则(AIC)。模型限定为多元线性回归模型，AIC可简化为：

其中S代表特征子集，|S|表示特征子集的特征个数，N代表训练样本的个数

其中f是线性神经网络模型，z_n是第n个训练样本的特征数据，r_n是第n个训练样本的参考数据，通过AIC信息准则最小化的标准来选择特征子集。当训练样本的数据量和特征维度很大时，为了提高算法的执行效率，可以将每个特征子集计算AIC的过程并行化。同时，这里提出了一种贪心的策略来选取最优子集。具体过程如下：

1)设初始特征子集大小k为1，依次计算每单个特征的AIC值，将所有特征按照AIC的值排序，选取第一个特征作为局部最优特征子集。

2)k的值加1，选取前k个特征构成的特征子集，该特征子集的AIC值小于局部最优特征子集的AIC值，更新该特征子集为历史最优特征子集，重复2)，否则进入3)

3)输出最优特征子集

步骤3，线性学习和非线性学习器结合

本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims

1.一种传感器数据校准模型的学习方法，包括以下步骤：

步骤1，线性学习器和非线性学习器的重要性学习，包括：

(1.1)选择学习器，选择合适的线性学习器和非线性学习器；线性学习器选择多元线性回归模型；非线性学习器选择树回归模型；

(1.2)学习器的多样性增强，通过引入数据样本扰动和输入属性扰动来增强学习器的多样性；

(1.3)学习器训练，分别对线性学习器和非线性学习器进行训练；

(1.4)权重的二次学习，利用二次学习法来学习线性学习器和非线性学习的权重；

(1.5)重要性判断，通过权重的值来判断线性学习器和非线性学习器结合策略；

步骤2，通过相关理论控制第一轮学习的程度，包括：

(2.1)控制第一轮学习的程度，通过输入特征子集来控制第一轮学习的程度，通过相关理论来选择合适的特征子集；

(2.1.1)线性学习器的模型选择，线性学习器的特征子集选择，通过信息准则的思想来选择合适的特征子集，信息准则给出了模型的准确率和模型的复杂性权衡的方程，选择最流行的信息准则，赤池信息量准则(AIC)；

(2.1.2)非线性学习器的模型选择，非线性学习器的特征子集选择，可以使用随机森林的特征重要性评估方法；

步骤3，线性学习和非线性学习器结合；

(3.1)第一轮学习，基于步骤(1.5)中的结论，选择重要性强的学习器进行第一轮训练，通过步骤2中的方法为步骤2中的学习器选择合适的特征子集，学习出合适的第一轮学习器模型；

(3.2)生成第二轮训练样本，用学习好的第一轮学习器的学习残差结合第一轮的训练样本生成第二轮的训练样本；

2.根据权利要求1所述的一种传感器数据校准模型的学习方法，其特征在于在所述步骤(1.4)所述的学习器权重二次学习法，是通过staking-MLR算法来学习出线性学习器和非线性学习器的权重。

3.根据权利要求1所述的一种传感器数据校准模型的学习方法，其特征在于在所述步骤(2.2)所述的线性学习器第一轮学习程度控制方法，是通过信息准则来为线性学习器选择合适的特征子集。