CN111815806A - 一种基于野值剔除和特征提取的飞参数据预处理方法 - Google Patents
一种基于野值剔除和特征提取的飞参数据预处理方法 Download PDFInfo
- Publication number
- CN111815806A CN111815806A CN202010666944.8A CN202010666944A CN111815806A CN 111815806 A CN111815806 A CN 111815806A CN 202010666944 A CN202010666944 A CN 202010666944A CN 111815806 A CN111815806 A CN 111815806A
- Authority
- CN
- China
- Prior art keywords
- data
- layer
- model
- boltzmann machine
- visible
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G07—CHECKING-DEVICES
- G07C—TIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
- G07C5/00—Registering or indicating the working of vehicles
- G07C5/08—Registering or indicating performance data other than driving, working, idle, or waiting time, with or without registering driving, working, idle or waiting time
- G07C5/0841—Registering performance data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
提供一种基于野值剔除和特征提取的飞参数据预处理方法,具体包括以下步骤:飞参数据采集;搭建卡尔曼滤波器模型;数据预分组;搭建受限去噪玻尔兹曼机模型;剔除野值后的飞参数据训练;飞机参数数据特征的提取。该方法适用于大规模飞参数据处理,给信号特征提取算法提供了一种新的思路,在实现特征提取的同时,能够实现飞参数据的野值剔除和降维处理。
Description
技术领域
本发明属于信号处理技术领域,尤其涉及飞行大数据机务外场自主保障信息支持系统的基于野值剔除和特征提取的飞机参数数据预处理方法。
背景技术
从上世纪90年代至今,航空装备技术飞速发展,尤其是在军事战略的调整以及航空装备作战使用样式发生变化的大环境下,作战飞机在使用和维护过程中记录了大量飞参数据,这些数据对于保障飞行安全和评估飞行训练具有极高的使用价值。为更有效地利用飞参数据,数据仓库和数据挖掘技术开始应用于飞参数据的管理和处理。然而,目前飞参数据挖掘的研究主要集中于挖掘算法,对飞参数据的预处理缺乏深入研究,从而导致挖掘结果质量的降低。
飞机飞行中处于高速、高负荷的运动状态,飞行参数记录系统在对各种信号的采集、传输和记录过程中不可避免会受到一些电磁干扰,因此记录的数据中必然混有干扰噪声和奇异点,甚至出现数据紊乱。要正确反映和重现飞机的真实飞行过程,并进一步地把飞参数据作为飞机、发动机及其机载设备工作状态监控、飞行训练质量评估、飞行事故分析的基础,必须对记录数据进行必要的数字滤波,消除干扰噪声,识别和剔除奇异数据点,并对数据进行平滑处理。飞参数据中的奇异点,又称野值点、离群点或跳点,是明显偏离被测信号变化规律的数据点,它不是被测对象本身故障的记录,而是由传感器、变换器及无线电传输中的干扰等造成的异常跳变点。实际情况表明,野点是个别的,但它们对数据分析结果的影响却是严重的。故在进行数据分析前必须通过一定的方法对其加以判别和修正或剔除。
另一方面,飞参数据中包含了大量的参数,而且这些参数之间的关联关系并不明确,如果不针对挖掘任务选择需要的参数就必然会使挖掘工作量巨大,同时也无法保证挖掘结果质量。在这样一个背景下,飞参数据的特征提取预处理研究具有重要的意义。
一种基于野值剔除和特征提取的飞参数据预处理算法,从野值剔除和特征提取两个方面对飞参数据预处理进行研究,并相应地提出了一种基于卡尔曼滤波的野值剔除方法和一种基于受限玻尔兹曼机的特征提取方法,从而为飞参数据的预处理探索了一条有效的途径。利用卡尔曼滤波对记录的动态系统飞参数据估值处理,去除数据中野值;利用受限玻尔兹曼机强大的无监督学习能力对记录的飞参数据从高维可视层的输入值映射到低维隐藏层,从而达到对飞参数据特征提取的目的。
发明内容
本发明提供一种基于野值剔除和特征提取的飞参数据预处理算法,具体包括以下步骤:
(一)飞参数据采集
收集飞参记录系统中的飞机参数数据,获得飞参数据信号;
(二)搭建卡尔曼滤波器模型
利用卡尔曼滤波理论构建滤波器,引入卡尔曼增益对数据进行校正和更新,在时间和状态两个维度出发,递归迭代估算出最优值,剔除飞参数据中的野值;
搭建卡尔曼滤波器模型包括以下步骤:
(三)数据预分组
将剔除野值后的飞参数据进行分组处理,依据机器学习方法,将总体飞参数据分组,其中训练组数据约占80%,测试组数据占总体数据20%,用于对模型训练效果的检验;
(四)搭建受限去噪玻尔兹曼机模型
针对飞参数据的非线性特点,在传统受限玻尔兹曼机的基础上,将输入节点由二值变量节点拓展为连续输入的实值变量节点,针对复杂的数据建立高斯伯努利受限玻尔兹曼机模型,利用受限玻尔兹曼机优良的无监督学习能力构建学习模型,其模型分为单可视层v和单隐含层h以及标签层;
搭建受限去噪玻尔兹曼机模型包括以下步骤:
(1)训练高斯伯努利受限玻尔兹曼机模型的优化目标,使高斯伯努利受限玻尔兹曼机模型能够最大程度拟合训练数据的分布,也就是经过特征编码再解码后的重构数据误差最小;假设正常情况下的训练数据为X=[x(1),x(2),...,x(n)]∈Rm*n,X的每一列x(1)…x(n)表示一个传感器的n次独立的采样点,每一行表示m个变量;取高斯伯努利受限玻尔兹曼机模型可见层单元节点数等于x(i)的变量数m,隐藏层节点个数和可见层节点个数有关的,多数情况下,隐藏层节点个数根据使用确定,或者是在参数一定的情况下,隐藏层节点个数选使得模型能量最小时的隐藏层节点个数;根据高斯伯努利受限玻尔兹曼机的结构特点,给定可见层单元状态,各隐含层的激活状态条件独立;给定隐层单元状态,可见层单元的激活状态也条件独立,有
其中P(v|h,θ)表示(v,h)的联合概率密度分布,v和h分别表示可见单元和隐单元的状态,vi表示第i个可见单元的状态,示第j个隐单元的状态,其中h=(h1,h2,h3...hn),θ={Wij,ai,bj}是受限玻尔兹曼机的参数,Wij、ai、bj均为实数,Wij为i、j两层之间的连接权重,aj表示可见单元神经元j的偏置,bj表示隐藏层单元j的偏置,σi为sigmoid函数,sigmoid函数是神经网络中常用的激活函数之一,k为离散时间,k=1,2,3,...;
(2)取式中各σi为1,采用无噪声重构形式,对高斯伯努利受限玻尔兹曼机模型网络参数θ随机初始化,得到网络参数初值θ0,σi为sigmoid函数;
(3)一个受限玻尔兹曼机包含一个由随机的隐单元构成的隐藏层和一个由随机的可见单元构成的可见层;受限玻尔兹曼机可以表示成一个二分图模型,所有可见单元和隐单元之间存在连接,而隐单元两两之间和可见单元两两之间不存在连接,也就是层间全连接,层内无连接;每一个可见层节点和隐藏层节点都有两种状态:处于激活状态时值为1,未被激活状态值为0;节点的激活概率由可见层和隐藏层节点的分布函数计算;将训练数据标准化预处理后,输入高斯伯努利受限玻尔兹曼机模型可见层v,x(i)这一列每个变量对应可见层v中的每一个节点,将训练数据X经由可见层,计算隐层节点的激活概率,再对隐层节点随机激活,实现可见层v到隐层h的编码,得到隐层特征;计算重构可见层节点均值,并将该均值输入正态分布随机函数,生成重构数据,实现隐层h至可见层v的解码;此时得到高斯伯努利受限玻尔兹曼机模型模型参数θ下训练数据集X的概率分布如下
其中P(X|θ)表示模型参数下训练数据集X的概率分布,E(x(i),h|θ)为受限玻尔兹曼机的能量公式,Z(θ)为归一化因子,表示对可见层和隐藏层节点集合的所有可能状态的求和;
(4)通过最大化高斯伯努利受限玻尔兹曼机网络在训练数据集X上的对数似然函数学习获得受限玻尔兹曼机模型的参数:
其中P(x(i)|θ)为高斯伯努利受限玻尔兹曼机模型模型参数θ下第i个训练数据集x(i)的概率分布,θ*为待求解的受限玻尔兹曼机的参数,l(θ)为最大释然函数,P(x(i),h|θ)为联合概率密度,E(x,h|θ)为变量的数学期望,x为训练数据X的行向量,代表单次数据;其中x=[x(1),x(2),x(3)...x(m)]T;
(5)由于归一化因子Z(θ)的存在,<·>model为模型定义的分布概率难以计算,因此在通过随机梯度上升算法对参数寻优时,无法直接计算偏导数第二项的值;通过对比散度CD算法,利用单次吉布斯采样得到原始数据重构;用重构数据的联合概率分布近似模型的联合概率分布<·>P(x,h|θ)来指导参数更新方向,如下面的梯度更新公式所述,将重构数据带入联合概率计算公式<·>P(x,h|θ)中,<·>符号为关于分布的数学期望,角标P(x,h|θ)表示可见层与隐藏层联合概率分布,在受限玻尔兹曼机中,当只有一个训练样本时,分别用‘data’和‘model’来简记P(x,h|θ)和P(v|h,θ)的概率分布;记重构数据的联合概率为<·>recon,从而实现快速学习训练高斯伯努利受限玻尔兹曼机模型;根据CD算法,随机梯度上升法的更新准则变为
这里的l是前面的l(θ),为简单起见,在公式中省略θ;
(6)通过经过多次迭代达到训练终止条件,终止条件即参数收敛到预定目标函数,之后获得高斯伯努利受限玻尔兹曼机模型的最优模型参数θ;
(7)提取测试集飞参数据特征数据,在飞参数据处理系统中获取测试集数据后,将测试数据标准化预处理后,将数据输入高斯伯努利受限玻尔兹曼机模型的高斯可见层,通过编码再解码得到测试集飞参数据的隐层特征,编码过程是将可见层输入的训练样本转变为数字信号进行随机初始化,用sigmoid激活函数σi得到隐藏层的神经元的0,1值,解码过程是从隐藏层到可见层的逆过程;
(五)剔除野值后的飞参数据训练
将经过卡尔曼滤波器处理后的训练组数据输入建立高斯伯努利受限玻尔兹曼机模型的单可视层v,输入数据x中的每个变量对应单可视层v的每个节点,将输入数据x经由单可视层v,通过计算隐层节点的激活概率,节点的激活概率由可见层和隐藏层节点的分布函数P(vi|h,θ)计算;再对隐层节点随机激活,即令对应节点状态值为1;实现单可视层v到单隐含层h的编码,编码过程就是可见层输入的训练样本转变为数字信号后,进行随机初始化,用上面的sigmoid激活函数σi得到隐藏层的神经元的0,1值,得到隐层特征;再计算重构可见层节点均值,并将该均值输入正态分布随机函数,生成重构数据,实现单隐含层h到单可视层v的解码,解码即是从隐藏层到可见层的逆过程;通过对比散度算法采用单次吉布斯采样得到原始数据重构,用重构数据带入步骤(四)的联合概率分布计算公式中,得出近似模型的联合概率,以此来指导参数更新方向,从而实现快速学习训练高斯伯努利受限玻尔兹曼机模型;
(六)飞机参数数据特征的提取
将测试组数据送入去噪受限玻尔兹曼机模型,将训练组获得的特征值与本次测试数据获得的特征值进行相似度计算,判断特征提取与聚类结果的准确性。
本发明基于野值剔除和特征提取的飞参数据预处理方法,涉及从野值剔除和特征提取两个方面对飞参数据预处理进行研究,利用卡尔曼滤波对记录的动态系统飞参数据估值处理,去除数据中野值;利用玻尔兹曼机强大的无监督学习能力对记录的飞参数据从高维可视层的输入值映射到低维隐藏层,从而达到对飞参数据特征提取的目的。卡尔曼滤波具有对状态向量的估计是最小二乘准则下的最优估计、对动态过程是平稳随机过程要求不严、递推算法容易实现、可以进行实时预报系统的状态且仅利用部分数据就可进行预测等优点。受限玻尔兹曼机在对模型进行训练过程中为了更快更高效的求取模型的阈值和权值引入了变异算子即以一定概率接受较差解,从而也避免了寻优过程陷入局部最优的问题。本方法适用于大规模飞参数据处理,给信号特征提取算法提供一种新的思路,在实现特征提取的同时,能够实现飞参数据的野值剔除和降维处理。
附图说明
图1为基于野值剔除和特征提取的飞参数据预处理算法流程图;
图2为卡尔曼滤波算法流程图;
图3为高斯伯努利受限玻尔兹曼机网络图。
具体实施方式
以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
如图1所示,一种基于野值剔除和特征提取的飞参数据预处理方法,该方法具体包括以下步骤:
(一)飞参数据采集:收集飞参记录系统中的飞机参数数据,获得飞参数据信号;
具体收集和获取方法为本领域技术人员熟知,不再累述。
(二)搭建卡尔曼滤波器模型:利用卡尔曼滤波理论构建滤波器,引入卡尔曼增益对数据进行校正和更新,在时间和状态两个维度出发,递归迭代估算出最优值,剔除飞参数据中的野值,图2给出了卡尔曼滤波算法的流程图;
搭建卡尔曼滤波器模型包括以下步骤:
(三)数据预分组:将剔除野值后的飞参数据进行分组处理,依据机器学习方法,将总体飞参数据分组,其中训练组数据约占80%,测试组数据占总体数据20%,用于对模型训练效果的检验;
(四)搭建受限去噪玻尔兹曼机模型:针对飞参数据的非线性特点,在传统受限玻尔兹曼机的基础上,将输入节点由二值变量节点拓展为连续输入的实值变量节点,针对复杂的数据建立高斯伯努利受限玻尔兹曼机模型,利用受限玻尔兹曼机优良的无监督学习能力构建学习模型,如图3所示,其模型分为单可视层v和单隐含层h以及标签层。
搭建受限去噪玻尔兹曼机模型包括以下步骤:
(1)训练高斯伯努利受限玻尔兹曼机模型的优化目标,使高斯伯努利受限玻尔兹曼机模型能够最大程度拟合训练数据的分布,即经过特征编码再解码后的重构数据误差最小。假设正常情况下的训练数据为X=[x(1),x(2),...,x(n)]∈Rm*n,X的每一列x(1)…x(n)表示一个传感器的n次独立的采样点,每一行表示m个变量。取高斯伯努利受限玻尔兹曼机模型可见层单元节点数等于x(i)的变量数m,隐藏层节点个数和可见层节点个数有关的,多数情况下,隐藏层节点个数需要根据使用而定,或者是在参数一定的情况下,隐藏层节点个数选使得模型能量最小时的隐藏层节点个数。根据高斯伯努利受限玻尔兹曼机的结构特点,给定可见层单元状态,各隐含层的激活状态条件独立;给定隐层单元状态,可见层单元的激活状态也条件独立,有
其中P(v|h,θ)表示(v,h)的联合概率密度分布,v和h分别表示可见单元和隐单元的状态,vi表示第i个可见单元的状态,示第j个隐单元的状态,其中h=(h1,h2,h3...hn),θ={Wij,ai,bj}是受限玻尔兹曼机的参数,Wij、ai、bj均为实数,Wij为i、j两层之间的连接权重,aj表示可见单元神经元j的偏置,bj表示隐藏层单元j的偏置,σi为sigmoid函数,sigmoid函数是神经网络中常用的激活函数之一,k为离散时间,k=1,2,3,...。
(2)取式中各σi为1,采用无噪声重构形式,对高斯伯努利受限玻尔兹曼机模型网络参数θ随机初始化,得到网络参数初值θ0,σi为sigmoid函数。
(3)一个受限玻尔兹曼机包含一个由随机的隐单元构成的隐藏层(一般是伯努利分布)和一个由随机的可见(观测)单元构成的可见(观测)层(一般是伯努利分布或高斯分布)。受限玻尔兹曼机可以表示成一个二分图模型,所有可见单元和隐单元之间存在连接,而隐单元两两之间和可见单元两两之间不存在连接,也就是层间全连接,层内无连接。每一个可见层节点和隐藏层节点都有两种状态:处于激活状态时值为1,未被激活状态值为0。这里的0和1状态的意义是代表了模型会选取哪些节点来使用,处于激活状态的节点被使用,未处于激活状态的节点未被使用。节点的激活概率由可见层和隐藏层节点的分布函数计算。将训练数据标准化预处理后,输入高斯伯努利受限玻尔兹曼机模型可见层v,x(i)这一列每个变量对应可见层v中的每一个节点,将训练数据X经由可见层,计算隐层节点的激活概率,再对隐层节点随机激活,实现可见层v到隐层h的编码,得到隐层特征,该方法为本领域技术人员熟知,不再累述。计算重构可见层节点均值,并将该均值输入正态分布随机函数,生成重构数据,实现隐层h至可见层v的解码,其中计算重构可见层节点均值的方法为本领域技术人员熟知,不再累述。此时可以得到高斯伯努利受限玻尔兹曼机模型模型参数θ下训练数据集X的概率分布如下
其中P(X|θ)表示模型参数下训练数据集X的概率分布,E(x(i),h|θ)为受限玻尔兹曼机的能量公式,Z(θ)为归一化因子,表示对可见层和隐藏层节点集合的所有可能状态的(能量指数)求和。
(4)可以通过最大化高斯伯努利受限玻尔兹曼机网络在训练数据集X上的对数似然函数学习获得受限玻尔兹曼机模型的参数:
其中P(x(i)|θ)为高斯伯努利受限玻尔兹曼机模型模型参数θ下第i个训练数据集x(i)的概率分布,θ*为待求解的受限玻尔兹曼机的参数,l(θ)为最大释然函数,P(x(i),h|θ)为联合概率密度,E(x,h|θ)为变量的数学期望,x为训练数据X的行向量,代表单次数据,其中x=[x(1),x(2),x(3)...x(m)]T。
(5)由于归一化因子Z(θ)的存在,<·>model为模型定义的分布概率。难以计算,因此在通过随机梯度上升算法对参数寻优时,无法直接计算偏导数第二项的值。通过对比散度(CD)算法,利用单次吉布斯采样得到原始数据重构,其中计算重构的方法为本领域技术人员熟知,不再累述。可以用重构数据的联合概率分布近似模型的联合概率分布<·>P(x,h|θ)来指导参数更新方向,如下面的梯度更新公式所述,将重构数据带入联合概率计算公式<·>P(x,h|θ)中,<·>符号为关于分布的数学期望,角标P(x,h|θ)表示可见层与隐藏层联合概率分布,在受限玻尔兹曼机中,当只有一个训练样本时,分别用‘data’和‘model’来简记P(x,h|θ)和P(v|h,θ)的概率分布。记重构数据的联合概率为<·>recon,从而实现快速学习训练高斯伯努利受限玻尔兹曼机模型模型。根据CD算法,随机梯度上升法的更新准则变为
这里的l是前面的l(θ),为简单起见,在公式中省略θ。
(6)通过经过多次迭代达到训练终止条件(终止条件即参数收敛到预定目标函数)后,即可获得高斯伯努利受限玻尔兹曼机模型的最优模型参数θ。
(7)提取测试集飞参数据特征数据,在飞参数据处理系统中获取测试集数据后,将测试数据标准化预处理后(标准化预处理为深度学习处理数据的基本步骤:降噪、平滑等,为本领域技术人员熟知,不再赘述),将数据输入高斯伯努利受限玻尔兹曼机模型的高斯可见层,同样地通过编码再解码得到测试集飞参数据的隐层特征(通过解码器,将字符转换为字节的方式称为编码,将字节转换为字符的方式称为解码),编码过程即是将可见层输入的训练样本转变为数字信号进行随机初始化,用sigmoid激活函数σi得到隐藏层的神经元的0,1值,解码过程即是从隐藏层到可见层的逆过程,不再赘述。
(五)剔除野值后的飞参数据训练:将经过卡尔曼滤波器处理后的训练组数据输入建立高斯伯努利受限玻尔兹曼机模型的单可视层v,输入数据x中的每个变量对应单可视层v的每个节点,将输入数据x经由单可视层v,通过计算隐层节点的激活概率,节点的激活概率由可见层和隐藏层节点的分布函数P(vi|h,θ)计算。再对隐层节点随机激活,即令对应节点状态值为1。实现单可视层v到单隐含层h的编码,编码过程即是可见层输入的训练样本转变为数字信号后,进行随机初始化,用上面的sigmoid激活函数σi得到隐藏层的神经元的0,1值,得到隐层特征,该方法为本领域技术人员熟知,不再累述。再计算重构可见层节点均值,并将该均值输入正态分布随机函数,生成重构数据,实现单隐含层h到单可视层v的解码,解码即是从隐藏层到可见层的逆过程,不再赘述。通过对比散度算法采用单次吉布斯采样得到原始数据重构,可以用重构数据带入步骤(四)的联合概率分布计算公式中,得出近似模型的联合概率,以此来指导参数更新方向,从而实现快速学习训练高斯伯努利受限玻尔兹曼机模型。
(六)飞机参数数据特征的提取:将测试组数据送入去噪受限玻尔兹曼机模型中,将训练组获得的特征值与本次测试数据获得的特征值进行相似度计算,进而判断特征提取与聚类结果的准确性。该步骤的具体实施方法为本领域技术人员熟知,不再累述。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所做的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (1)
1.一种基于野值剔除和特征提取的飞参数据预处理算法,其特征在于,具体包括以下步骤:
(一)飞参数据采集
收集飞参记录系统中的飞机参数数据,获得飞参数据信号;
(二)搭建卡尔曼滤波器模型
利用卡尔曼滤波理论构建滤波器,引入卡尔曼增益对数据进行校正和更新,在时间和状态两个维度出发,递归迭代估算出最优值,剔除飞参数据中的野值;
搭建卡尔曼滤波器模型包括以下步骤:
(三)数据预分组
将剔除野值后的飞参数据进行分组处理,依据机器学习方法,将总体飞参数据分组,其中训练组数据约占80%,测试组数据占总体数据20%,用于对模型训练效果的检验;
(四)搭建受限去噪玻尔兹曼机模型
针对飞参数据的非线性特点,在传统受限玻尔兹曼机的基础上,将输入节点由二值变量节点拓展为连续输入的实值变量节点,针对复杂的数据建立高斯伯努利受限玻尔兹曼机模型,利用受限玻尔兹曼机优良的无监督学习能力构建学习模型,其模型分为单可视层v和单隐含层h以及标签层;
搭建受限去噪玻尔兹曼机模型包括以下步骤:
(1)训练高斯伯努利受限玻尔兹曼机模型的优化目标,使高斯伯努利受限玻尔兹曼机模型能够最大程度拟合训练数据的分布,也就是经过特征编码再解码后的重构数据误差最小;假设正常情况下的训练数据为X=[x(1),x(2),...,x(n)]∈Rm*n,X的每一列x(1)…x(n)表示一个传感器的n次独立的采样点,每一行表示m个变量;取高斯伯努利受限玻尔兹曼机模型可见层单元节点数等于x(i)的变量数m,隐藏层节点个数和可见层节点个数有关的,多数情况下,隐藏层节点个数根据使用确定,或者是在参数一定的情况下,隐藏层节点个数选使得模型能量最小时的隐藏层节点个数;根据高斯伯努利受限玻尔兹曼机的结构特点,给定可见层单元状态,各隐含层的激活状态条件独立;给定隐层单元状态,可见层单元的激活状态也条件独立,有
其中P(v|h,θ)表示(v,h)的联合概率密度分布,v和h分别表示可见单元和隐单元的状态,vi表示第i个可见单元的状态,示第j个隐单元的状态,其中h=(h1,h2,h3...hn),θ={Wij,ai,bj}是受限玻尔兹曼机的参数,Wij、aibj均为实数,Wij为i、j两层之间的连接权重,aj表示可见单元神经元j的偏置,bj表示隐藏层单元j的偏置,σi为sigmoid函数,sigmoid函数是神经网络中常用的激活函数之一,k为离散时间,k=1,2,3,...;
(2)取式中各σi为1,采用无噪声重构形式,对高斯伯努利受限玻尔兹曼机模型网络参数θ随机初始化,得到网络参数初值θ0,σi为sigmoid函数;
(3)一个受限玻尔兹曼机包含一个由随机的隐单元构成的隐藏层和一个由随机的可见单元构成的可见层;受限玻尔兹曼机可以表示成一个二分图模型,所有可见单元和隐单元之间存在连接,而隐单元两两之间和可见单元两两之间不存在连接,也就是层间全连接,层内无连接;每一个可见层节点和隐藏层节点都有两种状态:处于激活状态时值为1,未被激活状态值为0;节点的激活概率由可见层和隐藏层节点的分布函数计算;将训练数据标准化预处理后,输入高斯伯努利受限玻尔兹曼机模型可见层v,x(i)这一列每个变量对应可见层v中的每一个节点,将训练数据X经由可见层,计算隐层节点的激活概率,再对隐层节点随机激活,实现可见层v到隐层h的编码,得到隐层特征;计算重构可见层节点均值,并将该均值输入正态分布随机函数,生成重构数据,实现隐层h至可见层v的解码;此时得到高斯伯努利受限玻尔兹曼机模型模型参数θ下训练数据集X的概率分布如下
其中P(X|θ)表示模型参数下训练数据集X的概率分布,E(x(i),h|θ)为受限玻尔兹曼机的能量公式,Z(θ)为归一化因子,表示对可见层和隐藏层节点集合的所有可能状态的求和;
(4)通过最大化高斯伯努利受限玻尔兹曼机网络在训练数据集X上的对数似然函数学习获得受限玻尔兹曼机模型的参数:
其中P(x(i)|θ)为高斯伯努利受限玻尔兹曼机模型模型参数θ下第i个训练数据集x(i)的概率分布,θ*为待求解的受限玻尔兹曼机的参数,l(θ)为最大释然函数,P(x(i),h|θ)为联合概率密度,E(x,h|θ)为变量的数学期望,x为训练数据X的行向量,代表单次数据;其中x=[x(1),x(2),x(3)...x(m)]T;
(5)由于归一化因子Z(θ)的存在,<·>model为模型定义的分布概率难以计算,因此在通过随机梯度上升算法对参数寻优时,无法直接计算偏导数第二项的值;通过对比散度CD算法,利用单次吉布斯采样得到原始数据重构;用重构数据的联合概率分布近似模型的联合概率分布<·>P(x,h|θ)来指导参数更新方向,如下面的梯度更新公式所述,将重构数据带入联合概率计算公式<·>P(x,h|θ)中,<·>符号为关于分布的数学期望,角标P(x,h|θ)表示可见层与隐藏层联合概率分布,在受限玻尔兹曼机中,当只有一个训练样本时,分别用‘data’和‘model’来简记P(x,h|θ)和P(v|h,θ)的概率分布;记重构数据的联合概率为<·>recon,从而实现快速学习训练高斯伯努利受限玻尔兹曼机模型;根据CD算法,随机梯度上升法的更新准则变为
这里的l是前面的l(θ),为简单起见,在公式中省略θ;
(6)通过经过多次迭代达到训练终止条件,终止条件即参数收敛到预定目标函数,之后获得高斯伯努利受限玻尔兹曼机模型的最优模型参数θ;
(7)提取测试集飞参数据特征数据,在飞参数据处理系统中获取测试集数据后,将测试数据标准化预处理后,将数据输入高斯伯努利受限玻尔兹曼机模型的高斯可见层,通过编码再解码得到测试集飞参数据的隐层特征,编码过程是将可见层输入的训练样本转变为数字信号进行随机初始化,用sigmoid激活函数σi得到隐藏层的神经元的0,1值,解码过程是从隐藏层到可见层的逆过程;
(五)剔除野值后的飞参数据训练
将经过卡尔曼滤波器处理后的训练组数据输入建立高斯伯努利受限玻尔兹曼机模型的单可视层v,输入数据x中的每个变量对应单可视层v的每个节点,将输入数据x经由单可视层v,通过计算隐层节点的激活概率,节点的激活概率由可见层和隐藏层节点的分布函数P(vi|h,θ)计算;再对隐层节点随机激活,即令对应节点状态值为1;实现单可视层v到单隐含层h的编码,编码过程就是可见层输入的训练样本转变为数字信号后,进行随机初始化,用上面的sigmoid激活函数σi得到隐藏层的神经元的0,1值,得到隐层特征;再计算重构可见层节点均值,并将该均值输入正态分布随机函数,生成重构数据,实现单隐含层h到单可视层v的解码,解码即是从隐藏层到可见层的逆过程;通过对比散度算法采用单次吉布斯采样得到原始数据重构,用重构数据带入步骤(四)的联合概率分布计算公式中,得出近似模型的联合概率,以此来指导参数更新方向,从而实现快速学习训练高斯伯努利受限玻尔兹曼机模型;
(六)飞机参数数据特征的提取
将测试组数据送入去噪受限玻尔兹曼机模型,将训练组获得的特征值与本次测试数据获得的特征值进行相似度计算,判断特征提取与聚类结果的准确性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010666944.8A CN111815806B (zh) | 2020-07-10 | 2020-07-10 | 一种基于野值剔除和特征提取的飞参数据预处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010666944.8A CN111815806B (zh) | 2020-07-10 | 2020-07-10 | 一种基于野值剔除和特征提取的飞参数据预处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111815806A true CN111815806A (zh) | 2020-10-23 |
CN111815806B CN111815806B (zh) | 2021-11-16 |
Family
ID=72842765
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010666944.8A Active CN111815806B (zh) | 2020-07-10 | 2020-07-10 | 一种基于野值剔除和特征提取的飞参数据预处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111815806B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112965966A (zh) * | 2021-02-08 | 2021-06-15 | 北京军懋国兴科技股份有限公司 | 一种基于实测飞参数据的快速预处理方法、系统及计算机相关产品 |
CN113869749A (zh) * | 2021-09-30 | 2021-12-31 | 中国工程物理研究院总体工程研究所 | 模拟飞行器的飞行训练质量评估系统及方法 |
CN114266103A (zh) * | 2021-09-16 | 2022-04-01 | 中国空气动力研究与发展中心计算空气动力研究所 | 一种飞行器参数和噪声特性在线估计方法及存储介质 |
CN115047894A (zh) * | 2022-04-14 | 2022-09-13 | 中国民用航空总局第二研究所 | 一种无人机轨迹测算方法、电子设备及存储介质 |
CN116993319A (zh) * | 2023-07-14 | 2023-11-03 | 南京先维信息技术有限公司 | 一种基于物联网的远程设备健康监测方法及装置 |
CN117789999A (zh) * | 2024-02-27 | 2024-03-29 | 济宁医学院附属医院 | 一种医疗健康大数据优化采集方法 |
CN117852156A (zh) * | 2024-03-08 | 2024-04-09 | 江苏狄诺尼信息技术有限责任公司 | 一种基于贝叶斯的道路平面线位智能重构的方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105069187A (zh) * | 2015-07-15 | 2015-11-18 | 北京航空航天大学 | 一种基于飞参面板数据模型的重着陆预测方法 |
US20160299036A1 (en) * | 2013-12-03 | 2016-10-13 | Kabushiki Kaisha Kobe Seiko Sho (Kobe Steel, Ltd.) | Data processing method and data processing apparatus |
RU2617565C1 (ru) * | 2015-12-02 | 2017-04-25 | Акционерное общество "Раменское приборостроительное конструкторское бюро" | Способ оценивания ошибок инерциальной информации и её коррекции по измерениям спутниковой навигационной системы |
GB201708265D0 (en) * | 2017-05-23 | 2017-07-05 | Atlantic Inertial Systems Ltd | Inertial navigation system |
CN106933977A (zh) * | 2017-02-16 | 2017-07-07 | 中国航天空气动力技术研究院 | 一种基于大数据挖掘分类剔除飞行参数野值的方法 |
CN109061341A (zh) * | 2018-07-10 | 2018-12-21 | 杭州安脉盛智能技术有限公司 | 基于神经网络的卡尔曼滤波变压器故障预测方法和系统 |
EP3432226A1 (en) * | 2017-07-19 | 2019-01-23 | IMEC vzw | Control plane organisation for flexible digital data plane |
CN110020685A (zh) * | 2019-04-09 | 2019-07-16 | 山东超越数控电子股份有限公司 | 一种基于自适应滤波和受限玻尔兹曼机的预处理方法,终端及可读存储介质 |
-
2020
- 2020-07-10 CN CN202010666944.8A patent/CN111815806B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160299036A1 (en) * | 2013-12-03 | 2016-10-13 | Kabushiki Kaisha Kobe Seiko Sho (Kobe Steel, Ltd.) | Data processing method and data processing apparatus |
CN105069187A (zh) * | 2015-07-15 | 2015-11-18 | 北京航空航天大学 | 一种基于飞参面板数据模型的重着陆预测方法 |
RU2617565C1 (ru) * | 2015-12-02 | 2017-04-25 | Акционерное общество "Раменское приборостроительное конструкторское бюро" | Способ оценивания ошибок инерциальной информации и её коррекции по измерениям спутниковой навигационной системы |
CN106933977A (zh) * | 2017-02-16 | 2017-07-07 | 中国航天空气动力技术研究院 | 一种基于大数据挖掘分类剔除飞行参数野值的方法 |
GB201708265D0 (en) * | 2017-05-23 | 2017-07-05 | Atlantic Inertial Systems Ltd | Inertial navigation system |
EP3432226A1 (en) * | 2017-07-19 | 2019-01-23 | IMEC vzw | Control plane organisation for flexible digital data plane |
CN109061341A (zh) * | 2018-07-10 | 2018-12-21 | 杭州安脉盛智能技术有限公司 | 基于神经网络的卡尔曼滤波变压器故障预测方法和系统 |
CN110020685A (zh) * | 2019-04-09 | 2019-07-16 | 山东超越数控电子股份有限公司 | 一种基于自适应滤波和受限玻尔兹曼机的预处理方法,终端及可读存储介质 |
Non-Patent Citations (3)
Title |
---|
ALCALAY, G.;SEREN, C.;HARDIER, G.: "An adaptive Extended Kalman Filter for monitoring and estimating key aircraft flight parameters", 《SCIENCEDIRECT》 * |
安利,叶雪梅: "一种飞参数据的野值剔除和平滑方法研究", 《现代电子技术》 * |
李钉云,冯海泓: "一种长基线中野值点判定、剔除及修正方法", 《声学技术》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112965966A (zh) * | 2021-02-08 | 2021-06-15 | 北京军懋国兴科技股份有限公司 | 一种基于实测飞参数据的快速预处理方法、系统及计算机相关产品 |
CN112965966B (zh) * | 2021-02-08 | 2023-09-08 | 北京军懋国兴科技股份有限公司 | 一种基于实测飞参数据的快速预处理方法、系统及计算机相关产品 |
CN114266103A (zh) * | 2021-09-16 | 2022-04-01 | 中国空气动力研究与发展中心计算空气动力研究所 | 一种飞行器参数和噪声特性在线估计方法及存储介质 |
CN114266103B (zh) * | 2021-09-16 | 2023-05-19 | 中国空气动力研究与发展中心计算空气动力研究所 | 一种飞行器参数和噪声特性在线估计方法及存储介质 |
CN113869749A (zh) * | 2021-09-30 | 2021-12-31 | 中国工程物理研究院总体工程研究所 | 模拟飞行器的飞行训练质量评估系统及方法 |
CN113869749B (zh) * | 2021-09-30 | 2024-05-10 | 中国工程物理研究院总体工程研究所 | 模拟飞行器的飞行训练质量评估系统及方法 |
CN115047894B (zh) * | 2022-04-14 | 2023-09-15 | 中国民用航空总局第二研究所 | 一种无人机轨迹测算方法、电子设备及存储介质 |
CN115047894A (zh) * | 2022-04-14 | 2022-09-13 | 中国民用航空总局第二研究所 | 一种无人机轨迹测算方法、电子设备及存储介质 |
CN116993319A (zh) * | 2023-07-14 | 2023-11-03 | 南京先维信息技术有限公司 | 一种基于物联网的远程设备健康监测方法及装置 |
CN116993319B (zh) * | 2023-07-14 | 2024-01-26 | 南京先维信息技术有限公司 | 一种基于物联网的远程设备健康监测方法及装置 |
CN117789999A (zh) * | 2024-02-27 | 2024-03-29 | 济宁医学院附属医院 | 一种医疗健康大数据优化采集方法 |
CN117789999B (zh) * | 2024-02-27 | 2024-05-03 | 济宁医学院附属医院 | 一种医疗健康大数据优化采集方法 |
CN117852156A (zh) * | 2024-03-08 | 2024-04-09 | 江苏狄诺尼信息技术有限责任公司 | 一种基于贝叶斯的道路平面线位智能重构的方法及系统 |
CN117852156B (zh) * | 2024-03-08 | 2024-05-17 | 江苏狄诺尼信息技术有限责任公司 | 一种基于贝叶斯的道路平面线位智能重构的方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111815806B (zh) | 2021-11-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111815806B (zh) | 一种基于野值剔除和特征提取的飞参数据预处理方法 | |
CN114755745B (zh) | 基于多通道深度残差收缩网络的冰雹天气识别与分类方法 | |
CN110287983B (zh) | 基于最大相关熵深度神经网络单分类器异常检测方法 | |
CN114363195B (zh) | 面向时间和频谱残差卷积网络的网络流量预测预警方法 | |
CN112765896A (zh) | 一种基于lstm的水处理时序数据异常检测方法 | |
Du et al. | GAN-based anomaly detection for multivariate time series using polluted training set | |
CN109581339B (zh) | 一种基于头脑风暴自动调整自编码网络的声呐识别方法 | |
CN110067696B (zh) | 一种风电机组载荷确定方法、装置、设备及可读存储介质 | |
CN114964778A (zh) | 一种基于小波时频图与深度学习的轴承故障诊断方法 | |
CN112800682A (zh) | 一种反馈寻优的风机叶片故障监测方法 | |
CN112684012A (zh) | 一种基于多参量信息融合的装备关键承力结构件故障诊断方法 | |
CN111340076A (zh) | 一种对新体制雷达目标未知模式的零样本识别方法 | |
CN112504682A (zh) | 基于粒子群优化算法的底盘发动机故障诊断方法及系统 | |
CN112784920A (zh) | 云边端协同的旋转部件对抗域自适应故障诊断方法 | |
CN111222689A (zh) | 基于多尺度时间特征的lstm负荷预测方法、介质及电子装置 | |
CN115659254A (zh) | 一种双模态特征融合的配电网电能质量扰动分析方法 | |
CN114897138A (zh) | 基于注意力机制和深度残差网络的系统故障诊断方法 | |
CN116630816B (zh) | 基于原型对比学习的sar目标识别方法、装置、设备及介质 | |
CN113177587A (zh) | 基于主动学习和变分自编码器的广义零样本目标分类方法 | |
CN111858343A (zh) | 一种基于攻击能力的对抗样本生成方法 | |
CN117154680A (zh) | 一种基于非平稳Transformer模型的风电功率预测方法 | |
CN110020685A (zh) | 一种基于自适应滤波和受限玻尔兹曼机的预处理方法,终端及可读存储介质 | |
CN115017939A (zh) | 一种飞机燃油泵故障智能诊断方法、装置和存储介质 | |
Haiyang et al. | An improved Canopy-FFCM clustering algorithm for ocean data analysis | |
CN116705055B (zh) | 一种变电站噪声监测方法、系统、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |