CN105224784A - 针对传感器采集数据的局部增量式的概率密度估计方法 - Google Patents

针对传感器采集数据的局部增量式的概率密度估计方法 Download PDF

Info

Publication number
CN105224784A
CN105224784A CN201510364822.2A CN201510364822A CN105224784A CN 105224784 A CN105224784 A CN 105224784A CN 201510364822 A CN201510364822 A CN 201510364822A CN 105224784 A CN105224784 A CN 105224784A
Authority
CN
China
Prior art keywords
gaussian distribution
data
sample
sensor
sensor collection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510364822.2A
Other languages
English (en)
Inventor
申富饶
高云亮
邱天宇
赵金熙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN201510364822.2A priority Critical patent/CN105224784A/zh
Publication of CN105224784A publication Critical patent/CN105224784A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

一种针对传感器采集数据的局部增量式的概率密度估计方法,也是一种在线式的方法,每次迭代只需要传感器采集来的单个数据样本,最终得到一个高斯混合模型。当传感器采集来的新数据到来时,根据其与当前模型的关系来确定是否要增加高斯成分,如果不增加则局部地对当前模型进行参数更新。这种增量和局部学习结合的方式使得算法能够检测出传感器采集来的数据流中概率密度分布的变化,而且对局部复杂的密度分布更为敏感,最终得到准确的概率密度估计。最后,使用一种去噪方式使得方法稳定性和抗干扰性能更强。

Description

针对传感器采集数据的局部增量式的概率密度估计方法
技术领域
本发明属于密度估计的技术领域,具体涉及一种针对传感器采集数据的局部增量式的概率密度估计方法。
背景技术
当传感器在启动后就进入了数据采集的过程,这样采集来的数据送到后台电脑中进行处理时,往往就要对传送过来采集来的数据进行估计,而生成这些数据的概率密度函数是一个非常重要的任务。
传统概率密度估计方法大致分为两种:非参数式方法和参数式方法,非参数方法的代表是核概率密度估计方法,它非常灵活,理论上能够收敛到任何光滑的概率概率密度函数。但是这类方法的问题是运行开销极大,面对规模稍大的问题便无能为力。
参数式方法的代表方法是高斯混合模型,它通过预先分配一定数量的高斯分布,然后通过“期望-最大化”方法和训练数据来得到每个高斯分布的参数和组合系数,最终得到的概率密度估计来自这些高斯成分的线性组合,这种方法的缺陷在于需要预先确定高斯成分的数量来取得较好的效果,不合适的数量会导致非常不理想的结果。此外,每次训练需要访问传感器采集来的所有的数据样本,在数据量非常大或者数据本身以数据流的形式存在时无法直接应用。
特别的,在面对数据流的情况下,还存在“概念漂移”(ConceptDrift)的现象:数据的概率密度函数随时间而变化。此时传统的批处理方法无法解决这类问题。
发明内容
本发明的目的提供一种针对传感器采集数据的局部增量式的概率密度估计方法,本方法在不改变传统硬件架构的基础上,综合采用了信道监听、频分、时分、码分技术,并借鉴超高频RFID识别技术中的询问/应答原理建立了网络的询问/应答机制,解决了运行开销极大、面对规模稍大的问题便无能为力、不合适的数量会导致非常不理想、在数据量非常大或者数据本身以数据流的形式存在时无法直接应用以及无法解决“概念漂移”的问题。
为了克服现有技术中的不足,本发明提供了一种针对传感器采集数据的局部增量式的概率密度估计方法的解决方案,具体如下:
一种针对传感器采集数据的局部增量式的概率密度估计方法,步骤如下:
步骤1:首先启动传感器进行数据采集,然后把传感器采集来的数据发送到处理单元中进行处理,该处理单元设置有存储器,存储器中存有以往的高斯分布集合、预设有用于初始化高斯分布的协方差矩阵、;
步骤2:把传感器采集来的数据发送到处理单元中进行处理的方式如下:
a.模型初始化过程,其过程具体为当处理单元接收到的传感器采集来的数据为第一个样本时,把该第一个样本进行向量化表示,把向量化的第一个样本作为均值向量,再结合用于初始化高斯分布的协方差矩阵,以此根据多元高斯分布的概率密度函数得到传感器采集来的数据的概率密度的初步估计,接收下一个新的传感器采集来的数据的新的样本,并对该新的样本进行向量化表示;
b.计算邻域集合,其过程具体为如果存储器中的高斯分布集合已有若干高斯分布,每一个高斯分布都定义了一个如公式(1)所示的接受域:
V i = { x &Element; R d | ( x - &mu; i ) T &Sigma; i - 1 ( x - &mu; i ) < T i 2 } - - - ( 1 )
Vi表示第i个高斯分布的接受域,i为大于等于1的整数,x代表当前正在处理的向量化的数据样本,Rd表示d维的实数空间,d为大于等于1的整数,Σi为用于第i个高斯分布的协方差矩阵,ui为第i个高斯分布的均值向量,Ti满足如下公式(2)的条件:
P ( ( x - &mu; i ) T &Sigma; i - 1 ( x - &mu; i ) < T i 2 ) = q - - - ( 2 )
P(.)表示概率函数,q为实数,范围在0.9-0.95之内;
利用公式(3):
Sx={i|(x-ux)T>∑i T(x-ux)<Ti 2}(3)
找出所有接受域中包含了当前数据样本的那些高斯分布组成的邻域集合Sx
c.增量学习,其过程具体为如果当前所求得的邻域集合Sx为空集,使用当前的数据样本初始化一个新的高斯分布加入到现有的存储器中;
d.局部参数更新,其过程具体为根据公式集合(1)
r i ( t ) = &phi; ( x t | &theta; i ( t - 1 ) ) &Sigma; j &phi; ( x t | &theta; j ( t - 1 ) )
n i ( t ) = n i ( t - 1 ) + r i ( t )
&mu; i ( t ) = &mu; i ( t - 1 ) + r i ( t ) 1 n i ( t ) ( x t - &mu; i ( t - 1 ) ) - - - ( 1 )
&Sigma; i ( t ) = &Sigma; i ( t - 1 ) + n i ( t - 1 ) ( n i ( t ) ) 2 ( x t - &mu; i ( t - 1 ) ) ( x t - &mu; i ( t - 1 ) ) T - 1 n i ( t ) &Sigma; i ( t - 1 )
对所有在邻域集合内的高斯分布,更新它们的参数来拟合当前的数据样本,其它高斯分布则保持不变,其中ri (t)表示第t轮时第i个高斯分布的中间参数,t为大于等于2的整数,第t轮的处理也就是针对第t个样本的处理,(.)表示多元高斯分布的概率密度函数,xt表示传感器采集到的第t个数据样本的向量化表示,θj (t-1)=(ri (t-1),ni (t-1),ui (t-1),∑i (t-1)),ni (t)表示针对第t轮时第i个高斯分布的有效数据样本的个数的中间参数,ui (t)表示第t轮时第i个高斯分布的均值向量,∑i (t-1)表示第t轮时第i个高斯分布的协方差矩阵;
e.去噪处理,其过程具体为每当处理的数据样本达到设定的数量时,就执行一次去噪处理过程,对所有由噪音产生的高斯成分,接收下一个传感器采集来的数据的新的样本,并对该新的样本进行向量化表示,返回b中执行。
所述的初始化高斯分布的协方差矩阵为对角矩阵。
本方法提供了一种针对传感器采集数据的局部增量式的概率密度估计方法,也是一种在线式的方法,每次迭代只需要传感器采集来的单个数据样本,最终得到一个高斯混合模型。当传感器采集来的新数据到来时,根据其与当前模型的关系来确定是否要增加高斯成分,如果不增加则局部地对当前模型进行参数更新。这种增量和局部学习结合的方式使得算法能够检测出传感器采集来的数据流中概率密度分布的变化,而且对局部复杂的密度分布更为敏感,最终得到准确的概率密度估计。最后,使用一种去噪方式使得方法稳定性和抗干扰性能更强。
具体实施方式
当传感器在启动后就进入了数据采集的过程,这样采集来的数据送到后台电脑中进行处理时,往往就要对传送过来采集来的数据进行估计,而生成这些数据的概率密度函数是一个非常重要的任务。另外在许多应用中,估计出传感器采集来的数据的概率密度都是非常重要的中间步骤。比如分类问题,只要有了不同类别的条件概率密度和先验就能够通过贝叶斯公式直接算出给定数据下类别的后验概率从而得到理想的贝叶斯分类器;还有在异常检测任务中,通过为期望的事件及模式建立一个准确的概率密度模型,就可以通过估计传感器采集来的数据的概率密度来判断它是否来自异常的事件或者模式。总的来说,密度估计是一个为给定的传感器采集来的数据建立概率模型的一个过程。
针对传感器采集数据的局部增量式的概率密度估计方法,步骤如下:
步骤1:首先启动传感器进行数据采集,然后把传感器采集来的数据发送到处理单元中进行处理,该处理单元设置有存储器,存储器中存有以往的高斯分布集合、预设有用于初始化高斯分布的协方差矩阵、;
步骤2:把传感器采集来的数据发送到处理单元中进行处理的方式如下:
a.模型初始化过程,其过程具体为当处理单元接收到的传感器采集来的数据为第一个样本时,把该第一个样本进行向量化表示,把向量化的第一个样本作为均值向量,再结合用于初始化高斯分布的协方差矩阵,以此根据多元高斯分布的概率密度函数得到传感器采集来的数据的概率密度的初步估计,接收下一个新的传感器采集来的数据的新的样本,并对该新的样本进行向量化表示;
b.计算邻域集合,其过程具体为如果存储器中的高斯分布集合已有若干高斯分布,每一个高斯分布都定义了一个如公式(1)所示的接受域:
V i = { x &Element; R d | ( x - &mu; i ) T &Sigma; i - 1 ( x - &mu; i ) < T i 2 } - - - ( 1 )
Vi表示第i个高斯分布的接受域,i为大于等于1的整数,x代表当前正在处理的向量化的数据样本,Rd表示d维的实数空间,d为大于等于1的整数,Σi为用于第i个高斯分布的协方差矩阵,ui为第i个高斯分布的均值向量,Ti满足如下公式(2)的条件:
P ( ( x - &mu; i ) T &Sigma; i - 1 ( x - &mu; i ) < T i 2 ) = q - - - ( 2 )
P(.)表示概率函数,q为实数,范围在0.9-0.95之内;
利用公式(3):
Sx={i|(x-ux)T>∑i T(x-ux)<Ti 2}(3)
找出所有接受域中包含了当前数据样本的那些高斯分布组成的邻域集合Sx
c.增量学习,其过程具体为如果当前所求得的邻域集合Sx为空集,使用当前的数据样本初始化一个新的高斯分布加入到现有的存储器中;
d.局部参数更新,其过程具体为根据公式集合(1)
r i ( t ) = &phi; ( x t | &theta; i ( t - 1 ) ) &Sigma; j &phi; ( x t | &theta; j ( t - 1 ) )
n i ( t ) = n i ( t - 1 ) + r i ( t )
&mu; i ( t ) = &mu; i ( t - 1 ) + r i ( t ) 1 n i ( t ) ( x t - &mu; i ( t - 1 ) ) - - - ( 1 )
&Sigma; i ( t ) = &Sigma; i ( t - 1 ) + n i ( t - 1 ) ( n i ( t ) ) 2 ( x t - &mu; i ( t - 1 ) ) ( x t - &mu; i ( t - 1 ) ) T - 1 n i ( t ) &Sigma; i ( t - 1 )
对所有在邻域集合内的高斯分布,更新它们的参数来拟合当前的数据样本,其它高斯分布则保持不变,其中ri (t)表示第t轮时第i个高斯分布的中间参数,t为大于等于2的整数,第t轮的处理也就是针对第t个样本的处理,(.)表示多元高斯分布的概率密度函数,xt表示传感器采集到的第t个数据样本的向量化表示,θj (t-1)=(ri (t-1),ni (t-1),ui (t-1),∑i (t-1)),ni (t)表示针对第t轮时第i个高斯分布的有效数据样本的个数的中间参数,ui (t)表示第t轮时第i个高斯分布的均值向量,∑i (t-1)表示第t轮时第i个高斯分布的协方差矩阵,j为大于等于1的整数;e.去噪处理,其过程具体为每当处理的数据样本达到设定的数量时,就执行一次去噪处理过程,对所有由噪音产生的高斯成分,接收下一个传感器采集来的数据的新的样本,并对该新的样本进行向量化表示,返回b中执行。所述的初始化高斯分布的协方差矩阵为对角矩阵。
根据上述的针对传感器采集数据的局部增量式的概率密度估计方法,本实施例采用了利用本发明的方法对电流传感器采集的数据进行概率密度估计,也用现有技术的方法对该数据进行了概率密度估计,对比本发明方法和现有技术的方法的概率密度估计的效果,获得了如下结果:
本发明方法能达到比现有技术的方法更小的误差值,能够提高30%以上的估计精度。
本发明的优点如下:
a.克服了传统训练高斯混合模型需要预先确定高斯成分数量的问题。
b.在线式的训练算法极大提高了训练高斯混合模型的速度而且能够应对海量的数据流。
c.能够实时地进行模型的更新,在学习新的模式或者事件的时候并不会影响之前方法学习到的模型。
d.局部自适应的模型更新使得方法收敛速度更快。
e.阶段性的去噪处理使得算法面对数据中的噪声具有更强的稳定性和抗干扰性能。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案内容,依据本发明的技术实质,在本发明的精神和原则之内,对以上实施例所作的任何简单的修改、等同替换与改进等,均仍属于本发明技术方案的保护范围之内。

Claims (2)

1.一种针对传感器采集数据的局部增量式的概率密度估计方法,其特征如下,步骤如下:
步骤1:首先启动传感器进行数据采集,然后把传感器采集来的数据发送到处理单元中进行处理,该处理单元设置有存储器,存储器中存有以往的高斯分布集合、预设有用于初始化高斯分布的协方差矩阵、;
步骤2:把传感器采集来的数据发送到处理单元中进行处理的方式如下:
a.模型初始化过程,其过程具体为当处理单元接收到的传感器采集来的数据为第一个样本时,把该第一个样本进行向量化表示,把向量化的第一个样本作为均值向量,再结合用于初始化高斯分布的协方差矩阵,以此根据多元高斯分布的概率密度函数得到传感器采集来的数据的概率密度的初步估计,接收下一个新的传感器采集来的数据的新的样本,并对该新的样本进行向量化表示;
b.计算邻域集合,其过程具体为如果存储器中的高斯分布集合已有若干高斯分布,每一个高斯分布都定义了一个如公式(1)所示的接受域:
Vi表示第i个高斯分布的接受域,i为大于等于1的整数,x代表当前正在处理的向量化的数据样本,Rd表示d维的实数空间,d为大于等于1的整数,∑i为用于第i个高斯分布的协方差矩阵,ui为第i个高斯分布的均值向量,Ti满足如下公式(2)的条件:
P(.)表示概率函数,q为实数,范围在0.9-0.95之内;
利用公式(3):
Sx={i|(x-ux)T>∑i T(x-ux)<Ti 2}(3)
找出所有接受域中包含了当前数据样本的那些高斯分布组成的邻域集合Sx
c.增量学习,其过程具体为如果当前所求得的邻域集合Sx为空集,使用当前的数据样本初始化一个新的高斯分布加入到现有的存储器中;
d.局部参数更新,其过程具体为根据公式集合(1)
对所有在邻域集合内的高斯分布,更新它们的参数来拟合当前的数据样本,其它高斯分布则保持不变,其中ri (t)表示第t轮时第i个高斯分布的中间参数,t为大于等于2的整数,第t轮的处理也就是针对第t个样本的处理,(.)表示多元高斯分布的概率密度函数,xt表示传感器采集到的第t个数据样本的向量化表示,θj (t-1)=(ri (t-1),ni (t-1),ui (t-1),∑i (t-1)),ni (t)表示针对第t轮时第i个高斯分布的有效数据样本的个数的中间参数,ui (t)表示第t轮时第i个高斯分布的均值向量,∑i (t-1)表示第t轮时第i个高斯分布的协方差矩阵;
e.去噪处理,其过程具体为每当处理的数据样本达到设定的数量时,就执行一次去噪处理过程,对所有由噪音产生的高斯成分,接收下一个传感器采集来的数据的新的样本,并对该新的样本进行向量化表示,返回b中执行。
2.根据权利要求1所述的针对传感器采集数据的局部增量式的概率密度估计方法,其特征如下所述的初始化高斯分布的协方差矩阵为对角矩阵。
CN201510364822.2A 2015-06-29 2015-06-29 针对传感器采集数据的局部增量式的概率密度估计方法 Pending CN105224784A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510364822.2A CN105224784A (zh) 2015-06-29 2015-06-29 针对传感器采集数据的局部增量式的概率密度估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510364822.2A CN105224784A (zh) 2015-06-29 2015-06-29 针对传感器采集数据的局部增量式的概率密度估计方法

Publications (1)

Publication Number Publication Date
CN105224784A true CN105224784A (zh) 2016-01-06

Family

ID=54993750

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510364822.2A Pending CN105224784A (zh) 2015-06-29 2015-06-29 针对传感器采集数据的局部增量式的概率密度估计方法

Country Status (1)

Country Link
CN (1) CN105224784A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108180935A (zh) * 2018-01-31 2018-06-19 深圳春沐源控股有限公司 传感器的故障检测方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101464950A (zh) * 2009-01-16 2009-06-24 北京航空航天大学 基于在线学习和贝叶斯推理的视频人脸识别与检索方法
CN102081753A (zh) * 2010-05-07 2011-06-01 上海海事大学 一种基于在线分裂合并em算法的高斯混合模型分类方法
CN104462850A (zh) * 2014-12-25 2015-03-25 江南大学 基于模糊高斯混合模型的多阶段间歇过程软测量方法
CN104699894A (zh) * 2015-01-26 2015-06-10 江南大学 基于实时学习的高斯过程回归多模型融合建模方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101464950A (zh) * 2009-01-16 2009-06-24 北京航空航天大学 基于在线学习和贝叶斯推理的视频人脸识别与检索方法
CN102081753A (zh) * 2010-05-07 2011-06-01 上海海事大学 一种基于在线分裂合并em算法的高斯混合模型分类方法
CN104462850A (zh) * 2014-12-25 2015-03-25 江南大学 基于模糊高斯混合模型的多阶段间歇过程软测量方法
CN104699894A (zh) * 2015-01-26 2015-06-10 江南大学 基于实时学习的高斯过程回归多模型融合建模方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
TIANYU QIU等: "Local Adaptive and Incremental Gaussian Mixture for Online Density Estimation", 《PAKDD 2015: ADVANCES IN KNOWLEDGE DISCOVERY AND DATA MINING》 *
刘扬等: "自适应高斯混合模型球场检测算法及其在体育视频分析中的应用", 《计算机研究与发展》 *
张伟等: "一种基于概率密度的数据流聚类算法", 《计算机应用》 *
曹振丽等: "一种基于高斯混合模型的不确定数据流聚类方法", 《计算机研究与发展》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108180935A (zh) * 2018-01-31 2018-06-19 深圳春沐源控股有限公司 传感器的故障检测方法及装置
CN108180935B (zh) * 2018-01-31 2020-07-03 深圳春沐源控股有限公司 传感器的故障检测方法及装置

Similar Documents

Publication Publication Date Title
Runge Conditional independence testing based on a nearest-neighbor estimator of conditional mutual information
Zhang et al. Fuzzy c-means clustering of incomplete data based on probabilistic information granules of missing values
CN110632572B (zh) 基于无意调相特性的雷达辐射源个体识别方法及装置
Markovich Nonparametric analysis of univariate heavy-tailed data: research and practice
CN108268934A (zh) 基于深度学习的推荐方法和装置、电子设备、介质、程序
Deligiannidis et al. Exponential ergodicity of the bouncy particle sampler
Wenk et al. Fast Gaussian process based gradient matching for parameter identification in systems of nonlinear ODEs
CN106202756B (zh) 基于单层感知机的欠定盲源分离源信号恢复方法
CN111160553B (zh) 一种新的领域自适应学习方法
EP3905141A1 (en) Estimating the implicit likelihoods of generative adversarial networks
CN108256238B (zh) 一种基于深度学习的光纤光栅波长解调方法及装置
US11823058B2 (en) Data valuation using reinforcement learning
US20230342606A1 (en) Training method and apparatus for graph neural network
CN110738314A (zh) 一种基于深度迁移网络的点击率预测方法及装置
Forbes et al. Combining Monte Carlo and mean-field-like methods for inference in hidden Markov random fields
Liao et al. Quadratically gated mixture of experts for incomplete data classification
CN111191113A (zh) 一种基于边缘计算环境的数据资源需求预测和调整方法
Bertail et al. Rademacher complexity for Markov chains: Applications to kernel smoothing and Metropolis–Hastings
CN110580483A (zh) 一种室内外用户区分方法及装置
CN105224784A (zh) 针对传感器采集数据的局部增量式的概率密度估计方法
Yuan et al. Learning from biased soft labels
Springer et al. Robust parameter estimation of chaotic systems
CN117114139A (zh) 一种面向噪声标签的联邦学习方法
Li et al. Multi-sensor measurement fusion based on minimum mixture error entropy with non-Gaussian measurement noise
Barros et al. Building a robust extreme learning machine for classification in the presence of outliers

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160106