CN115062270B

CN115062270B - 基于最大似然的缺失值填充的传感器数据处理方法

Info

Publication number: CN115062270B
Application number: CN202210656223.8A
Authority: CN
Inventors: 周静静; 李雪峰; 章国豪; 于晓康; 张昊
Original assignee: Zhejiang Gongshang University
Current assignee: Zhejiang Gongshang University
Priority date: 2022-06-10
Filing date: 2022-06-10
Publication date: 2024-05-31
Anticipated expiration: 2042-06-10
Also published as: CN115062270A

Abstract

本发明提供了一种基于最大似然的缺失值填充的传感器数据处理方法，本发明从概率角度出发，依据初次插补后序列中相邻数据点之间速度变化的概率分布，传感器网络采集的数据完整性缺失问题可以转换为找到一个填充后的时间序列数据，该序列速度变化的概率具有最大似然。不同于最大似然估计中的似然，本方法中似然被定义为基于速度变化概率的对数取值。本发明方法基于求解序列速度变化的概率最大似然从而获得缺失值填充结果，具有较高的准确性。

Description

基于最大似然的缺失值填充的传感器数据处理方法

技术领域

本发明属于传感器数据处理领域，尤其涉及一种基于最大似然的缺失值填充的传感器数据处理方法。

背景技术

传感器网络采集的数据由于存在完整性缺失问题而直接丢弃缺失值，不利于后续的数据挖掘分析，现有的插补方法可以通过学习数据的局部或全局特征来填充缺失值，众多模型的初次填充值不会显著偏离真实值，但仍与真实值有较小的差距，而这些较小差距导致的小错误对很多应用有着重要影响，如通过传感器节点对车辆或者船舶的轨迹进行监测，相对于2米的大幅误差，0.5米的轨迹信号误差较小，但仍会对自动驾驶中的汽车或者船舶造成严重的影响，小错误一旦累积起来，也会导致后续数据挖掘工作的成本和风险的上升。并且对没有缺失值但小错误众多的GPS数据仍然无法进行有效地聚类。

综上所述，目前亟需一种新的传感器数据处理方法。

发明内容

本发明的目的是针对现有技术的不足，提供基于最大似然的缺失值填充的传感器数据处理方法，其目标是从概率角度出发，依据初次插补后序列中相邻数据点之间速度变化的概率分布，传感器网络采集的数据完整性缺失问题可以转换为找到一个填充后的时间序列数据，该序列速度变化的概率具有最大似然。不同于最大似然估计中的似然，本方法中似然被定义为基于速度变化概率的对数取值。

本发明解决其技术问题所采用的技术方案具体如下：

一种基于最大似然的缺失值填充的传感器数据处理方法，包括以下步骤：

步骤1、获取传感器采集的数据序列X[1,…,i,…,n]＝{x₁,x₂,…,x_i,…,x_n}，其中，x_i＝(d_i,t_i)表示第i个数据点，其中d_i为数值，t_i为数值d_i相对应的时间戳，n为时间序列数据点的数量；

步骤2、令序列X′[1,…,i]是子序列X[1,…,i]的一个填充结果，按照递推公式(1)依次计算每个子序列填充后序列中相邻数据点之间速度变化的概率分布的最大似然，对每个子序列X[1,…,i]进行填充，最后获得填充结果X′[1,…,i,…,n]：

当i＝2时，

其中，c_i∈{0,1,…,δ}表示i个数据点的填充开销，δ是填充预算，同时， D(i,c_i,x′_i-1,x′_i)表示序列X[1,…,i]的最大似然θ_i表示数据点x_i的错误范围，/> 表示填充后的速度变化，L(u′_i-1)表示数据点x_i-1填充后的速度变化似然，L(u′_i-1)＝ln P(u′_i-1)，P(u′_i-1)是速度变化u′_i-1的概率，通过基于传感器采集的数据统计的速度变化概率图查找获得。

进一步地，所述步骤2中，在递推公式(1)计算过程中，通过上下界约束对D(i,c_i,x′_i-1,x′_i)进行剪枝：

D(i,c_i,x′_i-1,x′_i)+L^u(X[i-1…n])＜L^w(X[1,…,n])

L^u(X[i,…,n])＝(n-i-1)·lnp_max

其中，p_max是所有速度变化取值中最大的概率，通过基于传感器采集的数据统计的速度变化概率图查找获得；u_i是数据点x_i的速度变化。

本发明有益效果如下：

本发明定义了基于最大化似然填充序列的传感器网络数据填充问题，并对问题的复杂度进行了证明，设计了一种伪多项式时间复杂度的算法。采用连续变量概率分布近似速度变化离散概率分布，基于近似后的连续变量概率分布，对填充问题进行转换，求解该问题，本发明方法基于求解序列速度变化的概率最大似然从而获得缺失值填充结果，具有较高的准确性。

附图说明

图1是一传感器采集的数据统计的速度变化概率图。

具体实施方式

下面结合实施例对本发明作进一步说明。

本发明的核心思想，是提出伪多项式时间算法来解决填充问题，通过递推公式计算找到最佳填充计算的最大似然，并利用似然的边界进行剪枝来简化计算复杂度获得接近真实值的传感器数据。

基于最大似然的缺失值填充的传感器数据处理方法，具体实现步骤如下：

步骤1、获取传感器采集的数据序列X[1,…,i,…,n]＝{x₁,x₂,…,x_i,…,x_n}，其中，x_i＝(d_i,t_i)|1≤i≤n表示第i个数据点，其中d_i为数值，t_i为数值d_i相对应的时间戳，n为时间序列数据点的数量。所述传感器采集的数据序列中，部分数据偏离真实值。

当i＝2时，

其中，c_i表示i个数据点的填充开销，c_i-1表示i-1个点(除去第i个点)的填充开销，c_i∈{0,1,…,δ}，δ是填充预算，填充预算是依据实际情况设置的已知值，假设填充预算δ是3，那么i个点的填充开销c_i就可以取0，1，2，3。当c_i取1时(也可以是0,2,3)，c_i-1就可以取0，1，2，以此类推，同时，c_i-1＝c_i-Δ(d′_i,d_i)，Δ(d′_i,d_i)＝|d′_i-d_i|；D(i,c_i,x′_i-1,x′_i)表示序列X[1,…,i]的最大似然每个数据点x_i有自己对应的时间戳t_i和错误范围θ_i，错误范围定义为x_i的真实值d_i′可能在范围[d_i-θ_i,d_i+θ_i]之内，错误范围θ_i也是依据实际情况设置的已知值，/>表示填充后的速度变化，L(u′_i-1)表示数据点x_i-1填充后的速度变化似然，L(u′_i-1)＝ln P(u′_i-1)，P(u′_i-1)是速度变化u′_i-1的概率，通过基于传感器采集的数据统计的速度变化概率图查找获得，图1所示为一传感器采集的数据统计的速度变化概率图。

进一步地，在上述递推公式计算过程中，通过上下界约束对D(i,c_i,x′_i-1,x′_i)进行剪枝，可以简化计算复杂度：

令p_max是表示速度变化取值的最大概率。

基于似然L(X)的定义，序列X[i,…,n]的似然上界可由p_max定义，具体公式如下：

L^u(X[i,…,n])＝(n-i-1)·lnp_max

p_max是所有速度变化取值中最大的概率，通过基于传感器采集的数据统计的速度变化概率图查找获得。图1所示：

p_max＝ln(0.4)＝-0.9

传感器采集的原始序列X[1,…,n]的似然L(X[1,…,n])可以作为最优填充序列的最大似然的下界，即：

L^w(X)＝L(X[1,…,n])≤L(X′[1,…,n])。

在上述递推公式计算过程中，对于填充子序列X[1,…,i]的最大似然为D(i,c_i,x′_i-1,x′_i)，通过上述似然上界计算公式可得子序列X[i+1,…,n]的似然上界L^u(X[i-1,…,n]。则D(i,c_i,x′_i-1,x′_i)+L^u(X[i-1…n])小于似然下界L^w(X[1,…,n])时终止D(i,c_i,x′_i′-1,x′_i)的计算。

下面结合一具体实施例对本发明作进一步说明。

考虑传感器采集的时间序列X中d＝{11,12,14,14,15,15,17},时间戳为t＝{1,2,3,4,5,6,7},图1表示时间序列相应的速度变化的概率分布。假设清洗预算δ＝3。其真实序列为X′＝{11，12，13，14，15，16，17}。

第三个数据点d₃前后的速度变化的概率为：

(对数)似然为L(u₃)＝＝ln0.07＝-2.65,通过类似的方法可以计算其他数据点的似然，因此整条时间序列的似然为L(X)＝ln(0.32)+ln(0.07)+ln(0.32)+ln(0.32)+ln(0.08)＝-8.5.

实际上第3个和第6个数据点包含错误，观测值为d₃＝14，相应的实际值d′₃应为13，假设当第三个点填充为真实值时，第6个数据点依然为观测值时，该时间序列的似然L(X′)＝3*ln(0.4)+ln(0.32)+ln(0.08＝-6.3,比之前含有错误的似然的L(X)要大。

为了计算递推式，例如i＝3，c_i＝2，代表着D(3,2,x′₂,′₃)。递推公式从i＝3开始计算，到i＝n＝7结束，因为清洗预算δ＝3，因此c_i∈[0,3],通过计算得当i＝7,c_i＝3时具有最大似然得D(7,3,x′₄,′₅)＝-4.5,可以得到最优解X′＝{11，12，13，14，15，16，17}，此时的最大似然L(X′)＝-4.5。说明了本发明的准确性。

根据图1所展示的概率分布，可以得到p_max＝log(0.4)＝-0.9，对每一层i,最大似然上界为：L^u(X[i-1,…,7])＝-0.9*(7-i),对于i＝2,计算得到这代表任何在序列X[1,…,5]的清洗结果的似然都不会比-4.5更大。

进一步的将输入时间序列的似然记做似然下界L^w(X)＝L(X[1…7])＝-8.5,该数值在上面计算得到。当i＝5,c_i＝1时，通过计算得到D(5,1,14,16)＝-8.5，根据上界可以计算出D(5,1,14,16)+L^u(X[4,…,7])＝-8.5-1.8＝-10.3＜L^w(x)＝-8.5,因此该方法不是最优解，任何基于该中间清洗结果D(5,1,14,16)的后续清洗应该被剪枝，说了剪枝的有效性。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其他不同形式的变化或变动。这里无需也无法把所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明的保护范围。

Claims

1.一种基于最大似然的缺失值填充的传感器数据处理方法，其特征在于，包括以下步骤：

步骤1、获取传感器采集的数据序列X[1，...，i，...，n]＝{x₁，x₂，...，x_i，...，x_n}，其中，x_i＝(d_i，t_i)表示第i个数据点，其中d_i为数值，t_i为数值d_i相对应的时间戳，n为时间序列数据点的数量；

步骤2、令序列X′[1，...，i]是子序列X[1，...，i]的一个填充结果，按照递推公式(1)依次计算每个子序列填充后序列中相邻数据点之间速度变化的概率分布的最大似然，对每个子序列X[1，...，i]进行填充，最后获得填充结果X′[1，...，i，...，n]：

当i＝2时，D(2，c₂，x′₁，x′₂)＝0，

其中，c_i∈{0，1，...，δ}表示i个数据点的填充开销，δ是填充预算，同时， D(i，c_i，x′_i-1，x′_i)表示序列X[1，...，i]的最大似然θ_i表示数据点x_i的错误范围，/> 表示填充后的速度变化，L(u′_i-1)表示数据点x_i-1填充后的速度变化似然，L(u′_i-1)＝ln P(u′_i-1)，P(u′_i-1)是速度变化u′_i-1的概率，通过基于传感器采集的数据统计的速度变化概率图查找获得。

2.根据权利要求1所述的方法，其特征在于，所述步骤2中，在递推公式(1)计算过程中，通过上下界约束对D(i，c_i，x′_i-1，x′_i)进行剪枝：

D(i，c_i，x′_i-1，x′_i)+L^u(X[i-1...n])＜L^w(X[1，...，n])

L^u(X[i，...，n])＝(n-i-1)·lnp_max