CN115062270B - 基于最大似然的缺失值填充的传感器数据处理方法 - Google Patents
基于最大似然的缺失值填充的传感器数据处理方法 Download PDFInfo
- Publication number
- CN115062270B CN115062270B CN202210656223.8A CN202210656223A CN115062270B CN 115062270 B CN115062270 B CN 115062270B CN 202210656223 A CN202210656223 A CN 202210656223A CN 115062270 B CN115062270 B CN 115062270B
- Authority
- CN
- China
- Prior art keywords
- sequence
- speed change
- filling
- data
- probability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000007476 Maximum Likelihood Methods 0.000 title claims abstract description 26
- 238000003672 processing method Methods 0.000 title claims abstract description 8
- 238000000034 method Methods 0.000 claims abstract description 12
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000013138 pruning Methods 0.000 claims description 4
- 238000007418 data mining Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01D—MEASURING NOT SPECIALLY ADAPTED FOR A SPECIFIC VARIABLE; ARRANGEMENTS FOR MEASURING TWO OR MORE VARIABLES NOT COVERED IN A SINGLE OTHER SUBCLASS; TARIFF METERING APPARATUS; MEASURING OR TESTING NOT OTHERWISE PROVIDED FOR
- G01D1/00—Measuring arrangements giving results other than momentary value of variable, of general application
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Operations Research (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Algebra (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Complex Calculations (AREA)
- Testing Or Calibration Of Command Recording Devices (AREA)
Abstract
本发明提供了一种基于最大似然的缺失值填充的传感器数据处理方法,本发明从概率角度出发,依据初次插补后序列中相邻数据点之间速度变化的概率分布,传感器网络采集的数据完整性缺失问题可以转换为找到一个填充后的时间序列数据,该序列速度变化的概率具有最大似然。不同于最大似然估计中的似然,本方法中似然被定义为基于速度变化概率的对数取值。本发明方法基于求解序列速度变化的概率最大似然从而获得缺失值填充结果,具有较高的准确性。
Description
技术领域
本发明属于传感器数据处理领域,尤其涉及一种基于最大似然的缺失值填充的传感器数据处理方法。
背景技术
传感器网络采集的数据由于存在完整性缺失问题而直接丢弃缺失值,不利于后续的数据挖掘分析,现有的插补方法可以通过学习数据的局部或全局特征来填充缺失值,众多模型的初次填充值不会显著偏离真实值,但仍与真实值有较小的差距,而这些较小差距导致的小错误对很多应用有着重要影响,如通过传感器节点对车辆或者船舶的轨迹进行监测,相对于2米的大幅误差,0.5米的轨迹信号误差较小,但仍会对自动驾驶中的汽车或者船舶造成严重的影响,小错误一旦累积起来,也会导致后续数据挖掘工作的成本和风险的上升。并且对没有缺失值但小错误众多的GPS数据仍然无法进行有效地聚类。
综上所述,目前亟需一种新的传感器数据处理方法。
发明内容
本发明的目的是针对现有技术的不足,提供基于最大似然的缺失值填充的传感器数据处理方法,其目标是从概率角度出发,依据初次插补后序列中相邻数据点之间速度变化的概率分布,传感器网络采集的数据完整性缺失问题可以转换为找到一个填充后的时间序列数据,该序列速度变化的概率具有最大似然。不同于最大似然估计中的似然,本方法中似然被定义为基于速度变化概率的对数取值。
本发明解决其技术问题所采用的技术方案具体如下:
一种基于最大似然的缺失值填充的传感器数据处理方法,包括以下步骤:
步骤1、获取传感器采集的数据序列X[1,…,i,…,n]={x1,x2,…,xi,…,xn},其中,xi=(di,ti)表示第i个数据点,其中di为数值,ti为数值di相对应的时间戳,n为时间序列数据点的数量;
步骤2、令序列X′[1,…,i]是子序列X[1,…,i]的一个填充结果,按照递推公式(1)依次计算每个子序列填充后序列中相邻数据点之间速度变化的概率分布的最大似然,对每个子序列X[1,…,i]进行填充,最后获得填充结果X′[1,…,i,…,n]:
当i=2时,
其中,ci∈{0,1,…,δ}表示i个数据点的填充开销,δ是填充预算,同时, D(i,ci,x′i-1,x′i)表示序列X[1,…,i]的最大似然θi表示数据点xi的错误范围,/> 表示填充后的速度变化,L(u′i-1)表示数据点xi-1填充后的速度变化似然,L(u′i-1)=ln P(u′i-1),P(u′i-1)是速度变化u′i-1的概率,通过基于传感器采集的数据统计的速度变化概率图查找获得。
进一步地,所述步骤2中,在递推公式(1)计算过程中,通过上下界约束对D(i,ci,x′i-1,x′i)进行剪枝:
D(i,ci,x′i-1,x′i)+Lu(X[i-1…n])<Lw(X[1,…,n])
Lu(X[i,…,n])=(n-i-1)·lnpmax
其中,pmax是所有速度变化取值中最大的概率,通过基于传感器采集的数据统计的速度变化概率图查找获得;ui是数据点xi的速度变化。
本发明有益效果如下:
本发明定义了基于最大化似然填充序列的传感器网络数据填充问题,并对问题的复杂度进行了证明,设计了一种伪多项式时间复杂度的算法。采用连续变量概率分布近似速度变化离散概率分布,基于近似后的连续变量概率分布,对填充问题进行转换,求解该问题,本发明方法基于求解序列速度变化的概率最大似然从而获得缺失值填充结果,具有较高的准确性。
附图说明
图1是一传感器采集的数据统计的速度变化概率图。
具体实施方式
下面结合实施例对本发明作进一步说明。
本发明的核心思想,是提出伪多项式时间算法来解决填充问题,通过递推公式计算找到最佳填充计算的最大似然,并利用似然的边界进行剪枝来简化计算复杂度获得接近真实值的传感器数据。
基于最大似然的缺失值填充的传感器数据处理方法,具体实现步骤如下:
步骤1、获取传感器采集的数据序列X[1,…,i,…,n]={x1,x2,…,xi,…,xn},其中,xi=(di,ti)|1≤i≤n表示第i个数据点,其中di为数值,ti为数值di相对应的时间戳,n为时间序列数据点的数量。所述传感器采集的数据序列中,部分数据偏离真实值。
步骤2、令序列X′[1,…,i]是子序列X[1,…,i]的一个填充结果,按照递推公式(1)依次计算每个子序列填充后序列中相邻数据点之间速度变化的概率分布的最大似然,对每个子序列X[1,…,i]进行填充,最后获得填充结果X′[1,…,i,…,n]:
当i=2时,
其中,ci表示i个数据点的填充开销,ci-1表示i-1个点(除去第i个点)的填充开销,ci∈{0,1,…,δ},δ是填充预算,填充预算是依据实际情况设置的已知值,假设填充预算δ是3,那么i个点的填充开销ci就可以取0,1,2,3。当ci取1时(也可以是0,2,3),ci-1就可以取0,1,2,以此类推,同时,ci-1=ci-Δ(d′i,di),Δ(d′i,di)=|d′i-di|;D(i,ci,x′i-1,x′i)表示序列X[1,…,i]的最大似然 每个数据点xi有自己对应的时间戳ti和错误范围θi,错误范围定义为xi的真实值di′可能在范围[di-θi,di+θi]之内,错误范围θi也是依据实际情况设置的已知值,/>表示填充后的速度变化,L(u′i-1)表示数据点xi-1填充后的速度变化似然,L(u′i-1)=ln P(u′i-1),P(u′i-1)是速度变化u′i-1的概率,通过基于传感器采集的数据统计的速度变化概率图查找获得,图1所示为一传感器采集的数据统计的速度变化概率图。
进一步地,在上述递推公式计算过程中,通过上下界约束对D(i,ci,x′i-1,x′i)进行剪枝,可以简化计算复杂度:
令pmax是表示速度变化取值的最大概率。
基于似然L(X)的定义,序列X[i,…,n]的似然上界可由pmax定义,具体公式如下:
Lu(X[i,…,n])=(n-i-1)·lnpmax
pmax是所有速度变化取值中最大的概率,通过基于传感器采集的数据统计的速度变化概率图查找获得。图1所示:
pmax=ln(0.4)=-0.9
传感器采集的原始序列X[1,…,n]的似然L(X[1,…,n])可以作为最优填充序列的最大似然的下界,即:
Lw(X)=L(X[1,…,n])≤L(X′[1,…,n])。
在上述递推公式计算过程中,对于填充子序列X[1,…,i]的最大似然为D(i,ci,x′i-1,x′i),通过上述似然上界计算公式可得子序列X[i+1,…,n]的似然上界Lu(X[i-1,…,n]。则D(i,ci,x′i-1,x′i)+Lu(X[i-1…n])小于似然下界Lw(X[1,…,n])时终止D(i,ci,x′i′-1,x′i)的计算。
下面结合一具体实施例对本发明作进一步说明。
考虑传感器采集的时间序列X中d={11,12,14,14,15,15,17},时间戳为t={1,2,3,4,5,6,7},图1表示时间序列相应的速度变化的概率分布。假设清洗预算δ=3。其真实序列为X′={11,12,13,14,15,16,17}。
第三个数据点d3前后的速度变化的概率为:
(对数)似然为L(u3)==ln0.07=-2.65,通过类似的方法可以计算其他数据点的似然,因此整条时间序列的似然为L(X)=ln(0.32)+ln(0.07)+ln(0.32)+ln(0.32)+ln(0.08)=-8.5.
实际上第3个和第6个数据点包含错误,观测值为d3=14,相应的实际值d′3应为13,假设当第三个点填充为真实值时,第6个数据点依然为观测值时,该时间序列的似然L(X′)=3*ln(0.4)+ln(0.32)+ln(0.08=-6.3,比之前含有错误的似然的L(X)要大。
为了计算递推式,例如i=3,ci=2,代表着D(3,2,x′2,′3)。递推公式从i=3开始计算,到i=n=7结束,因为清洗预算δ=3,因此ci∈[0,3],通过计算得当i=7,ci=3时具有最大似然得D(7,3,x′4,′5)=-4.5,可以得到最优解X′={11,12,13,14,15,16,17},此时的最大似然L(X′)=-4.5。说明了本发明的准确性。
根据图1所展示的概率分布,可以得到pmax=log(0.4)=-0.9,对每一层i,最大似然上界为:Lu(X[i-1,…,7])=-0.9*(7-i),对于i=2,计算得到这代表任何在序列X[1,…,5]的清洗结果的似然都不会比-4.5更大。
进一步的将输入时间序列的似然记做似然下界Lw(X)=L(X[1…7])=-8.5,该数值在上面计算得到。当i=5,ci=1时,通过计算得到D(5,1,14,16)=-8.5,根据上界可以计算出D(5,1,14,16)+Lu(X[4,…,7])=-8.5-1.8=-10.3<Lw(x)=-8.5,因此该方法不是最优解,任何基于该中间清洗结果D(5,1,14,16)的后续清洗应该被剪枝,说了剪枝的有效性。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其他不同形式的变化或变动。这里无需也无法把所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明的保护范围。
Claims (2)
1.一种基于最大似然的缺失值填充的传感器数据处理方法,其特征在于,包括以下步骤:
步骤1、获取传感器采集的数据序列X[1,...,i,...,n]={x1,x2,...,xi,...,xn},其中,xi=(di,ti)表示第i个数据点,其中di为数值,ti为数值di相对应的时间戳,n为时间序列数据点的数量;
步骤2、令序列X′[1,...,i]是子序列X[1,...,i]的一个填充结果,按照递推公式(1)依次计算每个子序列填充后序列中相邻数据点之间速度变化的概率分布的最大似然,对每个子序列X[1,...,i]进行填充,最后获得填充结果X′[1,...,i,...,n]:
当i=2时,D(2,c2,x′1,x′2)=0,
其中,ci∈{0,1,...,δ}表示i个数据点的填充开销,δ是填充预算,同时, D(i,ci,x′i-1,x′i)表示序列X[1,...,i]的最大似然θi表示数据点xi的错误范围,/> 表示填充后的速度变化,L(u′i-1)表示数据点xi-1填充后的速度变化似然,L(u′i-1)=ln P(u′i-1),P(u′i-1)是速度变化u′i-1的概率,通过基于传感器采集的数据统计的速度变化概率图查找获得。
2.根据权利要求1所述的方法,其特征在于,所述步骤2中,在递推公式(1)计算过程中,通过上下界约束对D(i,ci,x′i-1,x′i)进行剪枝:
D(i,ci,x′i-1,x′i)+Lu(X[i-1...n])<Lw(X[1,...,n])
Lu(X[i,...,n])=(n-i-1)·lnpmax
其中,pmax是所有速度变化取值中最大的概率,通过基于传感器采集的数据统计的速度变化概率图查找获得;ui是数据点xi的速度变化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210656223.8A CN115062270B (zh) | 2022-06-10 | 2022-06-10 | 基于最大似然的缺失值填充的传感器数据处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210656223.8A CN115062270B (zh) | 2022-06-10 | 2022-06-10 | 基于最大似然的缺失值填充的传感器数据处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115062270A CN115062270A (zh) | 2022-09-16 |
CN115062270B true CN115062270B (zh) | 2024-05-31 |
Family
ID=83200886
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210656223.8A Active CN115062270B (zh) | 2022-06-10 | 2022-06-10 | 基于最大似然的缺失值填充的传感器数据处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115062270B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB0318794D0 (en) * | 2003-08-09 | 2003-09-10 | Alstom Switzerland Ltd | Adaptive sensor model |
CN108733812A (zh) * | 2018-05-21 | 2018-11-02 | 华东师范大学 | 基于全局信息的时间序列数据中异常数据点的识别方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013205170A (ja) * | 2012-03-28 | 2013-10-07 | Sony Corp | 情報処理装置、情報処理方法、およびプログラム |
US10489716B2 (en) * | 2016-07-08 | 2019-11-26 | Intellergy, Inc. | Method for performing automated analysis of sensor data time series |
-
2022
- 2022-06-10 CN CN202210656223.8A patent/CN115062270B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB0318794D0 (en) * | 2003-08-09 | 2003-09-10 | Alstom Switzerland Ltd | Adaptive sensor model |
CN108733812A (zh) * | 2018-05-21 | 2018-11-02 | 华东师范大学 | 基于全局信息的时间序列数据中异常数据点的识别方法 |
Non-Patent Citations (1)
Title |
---|
WSN中基于线性回归和最大似然的缺失值估计模型;陈园园;袁焕丽;;周口师范学院学报;20160915(第05期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN115062270A (zh) | 2022-09-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106354995A (zh) | 一种基于拉格朗日插值与时间序列的预测方法 | |
CN111445108B (zh) | 数据驱动的配电网线变关系诊断方法、装置及系统 | |
CN111024096B (zh) | 一种车辆定位数据上传方法和车载终端 | |
CN104764868A (zh) | 一种基于地理加权回归的土壤有机碳预测方法 | |
CN110738855A (zh) | 一种数据稀疏时间段的道路交通流状况预测方法 | |
CN111460076A (zh) | 驾驶路线熟悉度确定方法、装置、计算机设备和存储介质 | |
CN115495991A (zh) | 一种基于时间卷积网络的降水区间预测方法 | |
CN113189623A (zh) | 一种卫星导航系统信号质量等级评估方法 | |
CN114911788B (zh) | 一种数据插补方法、装置及存储介质 | |
CN114913689B (zh) | 一种基于先验知识时变图卷积网络的交通流预测方法 | |
CN110633859A (zh) | 一种两阶段分解集成的水文序列预测方法 | |
CN115062270B (zh) | 基于最大似然的缺失值填充的传感器数据处理方法 | |
CN114330120A (zh) | 一种基于深度神经网络预测24小时pm2.5浓度的方法 | |
CN114360240A (zh) | 一种基于车联网轨迹特征的高精度定位方法 | |
CN110081890B (zh) | 一种结合深度网络的动态k最近邻地图匹配方法 | |
CN115129706B (zh) | 一种考虑周期性特征的土壤水分观测数据质量评估方法 | |
CN115236772A (zh) | 一种漂流观测仪数据质量控制系统及其方法 | |
CN114114332A (zh) | 一种有效探测gnss基准站坐标时间序列不连续点的方法 | |
CN110475198B (zh) | 一种城市道路用户轨迹纠偏处理方法及装置 | |
CN115412852A (zh) | 移动终端的运动轨迹确定方法及系统 | |
CN113091708A (zh) | 基于多样本gps质控数据的道路分段坡度估计方法及系统 | |
CN112182864A (zh) | 一种基于氢原子钟漂移情况选择钟差预报的方法 | |
CN117471502B (zh) | 一种定位源参数异常检测和修正方法、系统及电子设备 | |
CN115035185B (zh) | 一种利用曲率和曲率变化率识别平曲线的方法 | |
CN116469013B (zh) | 道路积水预测方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |