CN105224784A

CN105224784A - 针对传感器采集数据的局部增量式的概率密度估计方法

Info

Publication number: CN105224784A
Application number: CN201510364822.2A
Authority: CN
Inventors: 申富饶; 高云亮; 邱天宇; 赵金熙
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2015-06-29
Filing date: 2015-06-29
Publication date: 2016-01-06

Abstract

一种针对传感器采集数据的局部增量式的概率密度估计方法，也是一种在线式的方法，每次迭代只需要传感器采集来的单个数据样本，最终得到一个高斯混合模型。当传感器采集来的新数据到来时，根据其与当前模型的关系来确定是否要增加高斯成分，如果不增加则局部地对当前模型进行参数更新。这种增量和局部学习结合的方式使得算法能够检测出传感器采集来的数据流中概率密度分布的变化，而且对局部复杂的密度分布更为敏感，最终得到准确的概率密度估计。最后，使用一种去噪方式使得方法稳定性和抗干扰性能更强。

Description

针对传感器采集数据的局部增量式的概率密度估计方法

技术领域

本发明属于密度估计的技术领域，具体涉及一种针对传感器采集数据的局部增量式的概率密度估计方法。

背景技术

当传感器在启动后就进入了数据采集的过程，这样采集来的数据送到后台电脑中进行处理时，往往就要对传送过来采集来的数据进行估计，而生成这些数据的概率密度函数是一个非常重要的任务。

传统概率密度估计方法大致分为两种：非参数式方法和参数式方法，非参数方法的代表是核概率密度估计方法，它非常灵活，理论上能够收敛到任何光滑的概率概率密度函数。但是这类方法的问题是运行开销极大，面对规模稍大的问题便无能为力。

参数式方法的代表方法是高斯混合模型，它通过预先分配一定数量的高斯分布，然后通过“期望－最大化”方法和训练数据来得到每个高斯分布的参数和组合系数，最终得到的概率密度估计来自这些高斯成分的线性组合，这种方法的缺陷在于需要预先确定高斯成分的数量来取得较好的效果，不合适的数量会导致非常不理想的结果。此外，每次训练需要访问传感器采集来的所有的数据样本，在数据量非常大或者数据本身以数据流的形式存在时无法直接应用。

特别的，在面对数据流的情况下，还存在“概念漂移”(ConceptDrift)的现象：数据的概率密度函数随时间而变化。此时传统的批处理方法无法解决这类问题。

发明内容

本发明的目的提供一种针对传感器采集数据的局部增量式的概率密度估计方法，本方法在不改变传统硬件架构的基础上，综合采用了信道监听、频分、时分、码分技术，并借鉴超高频RFID识别技术中的询问/应答原理建立了网络的询问/应答机制，解决了运行开销极大、面对规模稍大的问题便无能为力、不合适的数量会导致非常不理想、在数据量非常大或者数据本身以数据流的形式存在时无法直接应用以及无法解决“概念漂移”的问题。

为了克服现有技术中的不足，本发明提供了一种针对传感器采集数据的局部增量式的概率密度估计方法的解决方案，具体如下：

一种针对传感器采集数据的局部增量式的概率密度估计方法，步骤如下：

步骤1：首先启动传感器进行数据采集，然后把传感器采集来的数据发送到处理单元中进行处理，该处理单元设置有存储器，存储器中存有以往的高斯分布集合、预设有用于初始化高斯分布的协方差矩阵、；

步骤2：把传感器采集来的数据发送到处理单元中进行处理的方式如下：

a.模型初始化过程，其过程具体为当处理单元接收到的传感器采集来的数据为第一个样本时，把该第一个样本进行向量化表示，把向量化的第一个样本作为均值向量，再结合用于初始化高斯分布的协方差矩阵，以此根据多元高斯分布的概率密度函数得到传感器采集来的数据的概率密度的初步估计，接收下一个新的传感器采集来的数据的新的样本，并对该新的样本进行向量化表示；

b.计算邻域集合，其过程具体为如果存储器中的高斯分布集合已有若干高斯分布，每一个高斯分布都定义了一个如公式(1)所示的接受域：

V_{i} = {x &Element; R^{d} | {(x - μ_{i})}^{T} Σ_{i}^{- 1} (x - μ_{i}) < T_{i}^{2}} - - - (1)

V_i表示第i个高斯分布的接受域，i为大于等于1的整数，x代表当前正在处理的向量化的数据样本，R^d表示d维的实数空间，d为大于等于1的整数，Σ_i为用于第i个高斯分布的协方差矩阵，u_i为第i个高斯分布的均值向量，T_i满足如下公式(2)的条件：

P ({(x - μ_{i})}^{T} Σ_{i}^{- 1} (x - μ_{i}) < T_{i}^{2}) = q - - - (2)

P(.)表示概率函数，q为实数，范围在0.9-0.95之内；

利用公式(3)：

S_x＝{i|(x-u_x)^T>∑_i ^T(x-u_x)<T_i ²}(3)

找出所有接受域中包含了当前数据样本的那些高斯分布组成的邻域集合S_x；

c.增量学习，其过程具体为如果当前所求得的邻域集合S_x为空集，使用当前的数据样本初始化一个新的高斯分布加入到现有的存储器中；

d.局部参数更新，其过程具体为根据公式集合(1)

r_{i}^{(t)} = \frac{φ (x_{t} | θ_{i}^{(t - 1)})}{Σ_{j} φ (x_{t} | θ_{j}^{(t - 1)})}

n_{i}^{(t)} = n_{i}^{(t - 1)} + r_{i}^{(t)}

μ_{i}^{(t)} = μ_{i}^{(t - 1)} + r_{i}^{(t)} \frac{1}{n_{i}^{(t)}} (x_{t} - μ_{i}^{(t - 1)}) - - - (1)

Σ_{i}^{(t)} = Σ_{i}^{(t - 1)} + \frac{n_{i}^{(t - 1)}}{{(n_{i}^{(t)})}^{2}} (x_{t} - μ_{i}^{(t - 1)}) {(x_{t} - μ_{i}^{(t - 1)})}^{T} - \frac{1}{n_{i}^{(t)}} Σ_{i}^{(t - 1)}

对所有在邻域集合内的高斯分布，更新它们的参数来拟合当前的数据样本，其它高斯分布则保持不变，其中r_i ^(t)表示第t轮时第i个高斯分布的中间参数，t为大于等于2的整数，第t轮的处理也就是针对第t个样本的处理，(.)表示多元高斯分布的概率密度函数，x_t表示传感器采集到的第t个数据样本的向量化表示，θ_j ^(t-1)＝(r_i ^(t-1),n_i ^(t-1),u_i ^(t-1),∑_i ^(t-1)),n_i ^(t)表示针对第t轮时第i个高斯分布的有效数据样本的个数的中间参数，u_i ^(t)表示第t轮时第i个高斯分布的均值向量，∑_i ^(t-1)表示第t轮时第i个高斯分布的协方差矩阵；

e.去噪处理，其过程具体为每当处理的数据样本达到设定的数量时，就执行一次去噪处理过程，对所有由噪音产生的高斯成分，接收下一个传感器采集来的数据的新的样本，并对该新的样本进行向量化表示，返回b中执行。

所述的初始化高斯分布的协方差矩阵为对角矩阵。

本方法提供了一种针对传感器采集数据的局部增量式的概率密度估计方法，也是一种在线式的方法，每次迭代只需要传感器采集来的单个数据样本，最终得到一个高斯混合模型。当传感器采集来的新数据到来时，根据其与当前模型的关系来确定是否要增加高斯成分，如果不增加则局部地对当前模型进行参数更新。这种增量和局部学习结合的方式使得算法能够检测出传感器采集来的数据流中概率密度分布的变化，而且对局部复杂的密度分布更为敏感，最终得到准确的概率密度估计。最后，使用一种去噪方式使得方法稳定性和抗干扰性能更强。

具体实施方式

当传感器在启动后就进入了数据采集的过程，这样采集来的数据送到后台电脑中进行处理时，往往就要对传送过来采集来的数据进行估计，而生成这些数据的概率密度函数是一个非常重要的任务。另外在许多应用中，估计出传感器采集来的数据的概率密度都是非常重要的中间步骤。比如分类问题，只要有了不同类别的条件概率密度和先验就能够通过贝叶斯公式直接算出给定数据下类别的后验概率从而得到理想的贝叶斯分类器；还有在异常检测任务中，通过为期望的事件及模式建立一个准确的概率密度模型，就可以通过估计传感器采集来的数据的概率密度来判断它是否来自异常的事件或者模式。总的来说，密度估计是一个为给定的传感器采集来的数据建立概率模型的一个过程。

针对传感器采集数据的局部增量式的概率密度估计方法，步骤如下：

V_{i} = {x &Element; R^{d} | {(x - μ_{i})}^{T} Σ_{i}^{- 1} (x - μ_{i}) < T_{i}^{2}} - - - (1)

P ({(x - μ_{i})}^{T} Σ_{i}^{- 1} (x - μ_{i}) < T_{i}^{2}) = q - - - (2)

P(.)表示概率函数，q为实数，范围在0.9-0.95之内；

利用公式(3)：

S_x＝{i|(x-u_x)^T>∑_i ^T(x-u_x)<T_i ²}(3)

d.局部参数更新，其过程具体为根据公式集合(1)

r_{i}^{(t)} = \frac{φ (x_{t} | θ_{i}^{(t - 1)})}{Σ_{j} φ (x_{t} | θ_{j}^{(t - 1)})}

n_{i}^{(t)} = n_{i}^{(t - 1)} + r_{i}^{(t)}

μ_{i}^{(t)} = μ_{i}^{(t - 1)} + r_{i}^{(t)} \frac{1}{n_{i}^{(t)}} (x_{t} - μ_{i}^{(t - 1)}) - - - (1)

Σ_{i}^{(t)} = Σ_{i}^{(t - 1)} + \frac{n_{i}^{(t - 1)}}{{(n_{i}^{(t)})}^{2}} (x_{t} - μ_{i}^{(t - 1)}) {(x_{t} - μ_{i}^{(t - 1)})}^{T} - \frac{1}{n_{i}^{(t)}} Σ_{i}^{(t - 1)}

对所有在邻域集合内的高斯分布，更新它们的参数来拟合当前的数据样本，其它高斯分布则保持不变，其中r_i ^(t)表示第t轮时第i个高斯分布的中间参数，t为大于等于2的整数，第t轮的处理也就是针对第t个样本的处理，(.)表示多元高斯分布的概率密度函数，x_t表示传感器采集到的第t个数据样本的向量化表示，θ_j ^(t-1)＝(r_i ^(t-1),n_i ^(t-1),u_i ^(t-1),∑_i ^(t-1)),n_i ^(t)表示针对第t轮时第i个高斯分布的有效数据样本的个数的中间参数，u_i ^(t)表示第t轮时第i个高斯分布的均值向量，∑_i ^(t-1)表示第t轮时第i个高斯分布的协方差矩阵，j为大于等于1的整数；e.去噪处理，其过程具体为每当处理的数据样本达到设定的数量时，就执行一次去噪处理过程，对所有由噪音产生的高斯成分，接收下一个传感器采集来的数据的新的样本，并对该新的样本进行向量化表示，返回b中执行。所述的初始化高斯分布的协方差矩阵为对角矩阵。

根据上述的针对传感器采集数据的局部增量式的概率密度估计方法，本实施例采用了利用本发明的方法对电流传感器采集的数据进行概率密度估计，也用现有技术的方法对该数据进行了概率密度估计，对比本发明方法和现有技术的方法的概率密度估计的效果，获得了如下结果：

本发明方法能达到比现有技术的方法更小的误差值，能够提高30％以上的估计精度。

本发明的优点如下：

a.克服了传统训练高斯混合模型需要预先确定高斯成分数量的问题。

b.在线式的训练算法极大提高了训练高斯混合模型的速度而且能够应对海量的数据流。

c.能够实时地进行模型的更新，在学习新的模式或者事件的时候并不会影响之前方法学习到的模型。

d.局部自适应的模型更新使得方法收敛速度更快。

e.阶段性的去噪处理使得算法面对数据中的噪声具有更强的稳定性和抗干扰性能。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明，任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内，当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本发明技术方案内容，依据本发明的技术实质，在本发明的精神和原则之内，对以上实施例所作的任何简单的修改、等同替换与改进等，均仍属于本发明技术方案的保护范围之内。

Claims

1.一种针对传感器采集数据的局部增量式的概率密度估计方法，其特征如下，步骤如下：

V_i表示第i个高斯分布的接受域，i为大于等于1的整数，x代表当前正在处理的向量化的数据样本，R^d表示d维的实数空间，d为大于等于1的整数，∑_i为用于第i个高斯分布的协方差矩阵，u_i为第i个高斯分布的均值向量，T_i满足如下公式(2)的条件：

P(.)表示概率函数，q为实数，范围在0.9-0.95之内；

利用公式(3)：

S_x＝{i|(x-u_x)^T>∑_i ^T(x-u_x)<T_i ²}(3)

d.局部参数更新，其过程具体为根据公式集合(1)

2.根据权利要求1所述的针对传感器采集数据的局部增量式的概率密度估计方法，其特征如下所述的初始化高斯分布的协方差矩阵为对角矩阵。