CN111429605B - 一种基于生成式对抗网络的缺失值填充方法 - Google Patents

一种基于生成式对抗网络的缺失值填充方法 Download PDF

Info

Publication number
CN111429605B
CN111429605B CN202010279538.6A CN202010279538A CN111429605B CN 111429605 B CN111429605 B CN 111429605B CN 202010279538 A CN202010279538 A CN 202010279538A CN 111429605 B CN111429605 B CN 111429605B
Authority
CN
China
Prior art keywords
data
module
missing value
filling
electrically connected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010279538.6A
Other languages
English (en)
Other versions
CN111429605A (zh
Inventor
郭毅博
牛猛
徐明亮
潘俊
徐三树
朱虹宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou University
AVIC Jincheng Nanjing Engineering Institute of Aircraft Systems
Original Assignee
Zhengzhou University
AVIC Jincheng Nanjing Engineering Institute of Aircraft Systems
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou University, AVIC Jincheng Nanjing Engineering Institute of Aircraft Systems filed Critical Zhengzhou University
Priority to CN202010279538.6A priority Critical patent/CN111429605B/zh
Publication of CN111429605A publication Critical patent/CN111429605A/zh
Application granted granted Critical
Publication of CN111429605B publication Critical patent/CN111429605B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07CTIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
    • G07C5/00Registering or indicating the working of vehicles
    • G07C5/08Registering or indicating performance data other than driving, working, idle, or waiting time, with or without registering driving, working, idle or waiting time
    • G07C5/0841Registering performance data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Testing Of Devices, Machine Parts, Or Other Structures Thereof (AREA)
  • Arrangements For Transmission Of Measured Signals (AREA)

Abstract

本发明涉及时序数据缺失值填充附属装置的技术领域,特别是涉及一种基于生成式对抗网络的缺失值填充方法,可解决现有技术中填充效果较差且需要完整的数据集训练模型的问题,填充效果好、计算速度快、配置灵活,提高使用可靠性;包括角度传感器、角加速度传感器、油面高度传感器、数据采集模块、数据预处理模块、数据集生成模块和缺失值填充模块,角度传感器、角加速度传感器和油面高度传感器均与数据采集模块电连接,数据预处理模块与数据采集模块电连接,数据集生成模块与数据预处理模块电连接,缺失值填充模块与数据集生成模块电连接。

Description

一种基于生成式对抗网络的缺失值填充方法
技术领域
本发明涉及时序数据缺失值填充附属装置的技术领域,特别是涉及一种基于生成式对抗网络的缺失值填充方法。
背景技术
众所周知,飞机油量测量的前提是获取到完整的飞机传感器时序数据,然而,由于各种因素的影响,传感器采集到的数据会包含很多缺失值。而直接使用这些包含缺失值的数据很难学习到其变化规律,从而导致油量测量方法精度较低。因此,传感器时序数据中的缺失值填充任务是进行后续分析的基础。为了解决该问题,研究人员提出了许多缺失数据填充方法。这些方法主要可以分为两类:基于统计学的缺失值填充方法、基于机器学习的缺失值填充方法。
1)基于统计学的缺失值填充方法
基于统计学的缺失值填充方法是根据统计学相关内容来填充数据中的缺失值。Amiri提出使用上一次观测值来进行缺失值填充,Kantardzic提出使用均值来进行缺失值填充。以上基于统计规律的缺失值填充方法虽然一定程度上能够恢复缺失信息,但是该类填充方法忽略了其他维度数据对缺失值的影响,这会导致填充效果很差。
2)基于机器学习的缺失值填充方法
基于机器学习的缺失值填充方法是使用机器学习相关算法学习数据的隐含规律,然后使用学习到的模型针对每个缺失值进行填充。
Hastie提出了基于矩阵分解的填充方法,该方法将缺失数据作为一个矩阵,先将该矩阵分解为多个子矩阵,再将这些子矩阵相乘,最后将得到的近似矩阵用于填充缺失矩阵。
Rubin提出了基于期望最大化的填充方法,该方法通过迭代进行求解期望和最大化期望两个步骤的计算,得到概率模型,再使用概率模型估计缺失值,并将估计值作为填充值。
Batista提出了基于k近邻的填充方法,该方法先根据欧氏距离寻找到与缺失数据最相似的k个数据,然后使用这k个数据的平均值作为填充值。该算法的精度取决于参数k值的选择,需要选择一个合适的k值,k值过大或者过小时均会造成填充模型精度下降。
上述方法主要用于非时序数据的缺失值填充任务中,没有考虑数据在时间维度上的上下文关系,在时序数据缺失值填充任务中效果不佳,导致其使用可靠性较差。
发明内容
为解决上述技术问题,本发明提供一种可解决现有技术中填充效果较差且需要完整的数据集训练模型的问题,填充效果好、计算速度快、配置灵活,提高使用可靠性的基于生成式对抗网络的缺失值填充方法。
本发明的一种基于生成式对抗网络的缺失值填充方法,包括角度传感器、角加速度传感器、油面高度传感器、数据采集模块、数据预处理模块、数据集生成模块和缺失值填充模块,所述角度传感器、角加速度传感器和油面高度传感器均与数据采集模块电连接,所述数据预处理模块与数据采集模块电连接,所述数据集生成模块与数据预处理模块电连接,所述缺失值填充模块与数据集生成模块电连接。
本发明的一种基于生成式对抗网络的缺失值填充方法,数据集生成模块获取数据预处理模块处理后的油面高度数据,并根据预先测得的其对应的油量数据生成数据集,再将数据集依照比例4:1划分为训练集、测试集。
本发明的一种基于生成式对抗网络的缺失值填充方法,缺失值填充模块的网络结构包括生成器和判别器。
本发明的一种基于生成式对抗网络的缺失值填充方法,缺失值填充模块训练部分使用优化的损失函数计算损失值,并根据损失值对生成式对抗网络中的各权重矩阵进行更新。
与现有技术相比本发明的有益效果为:采用角度传感器、角加速度传感器和油面高度传感器对飞机的飞行角度、飞行角加速度和油箱燃油油面高度数据进行采集,然后数据采集模块对采集角度传感器、角加速度传感器和油面高度传感器采集到的数据进行收集;数据预处理模块用于检测传感器是否失真,并对采集到的数据进行归一化处理;数据集生成模块获取数据预处理模块处理后的油面高度数据,并根据预先测得的其对应的油量数据生成数据集,再将数据集依照比例4:1划分为训练集和测试集,缺失值填充模块用于训练生成式对抗网络模型并填充时序数据缺失值,具有填充效果好、计算速度快、配置灵活等特点。
附图说明
图1是本发明提供的基于生成式对抗网络的缺失值填充方法的结构示意图;
图2是本发明提供的缺失值填充模块生成式对抗的结构示意图;
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
实施例:
如图1和图2所示,本发明的一种基于生成式对抗网络的缺失值填充方法,数据采集模块用于采集角度传感器、角加速度传感器和油面高度传感器,其中角度传感器用于检测飞机的飞行角度(用α表示);角加速度传感器用于检测飞机飞行角度的加速度(用β表示);油面高度传感器用于检测飞机燃油箱油面高度信息(用X表示)。
数据预处理模块用于检测传感器是否失真,并对采集到的数据进行归一化处理;对于传感器是否失真的检测(飞机在做大角度机动时,燃油液面会产生较大的浪涌和飞溅,可能出现失真情况),可以设定一个阈值m,若传感器本时刻数据αi、βi与上一时刻数据αi-1、βi-1的差值大于该阈值,即||αi-1i||>mor||βi-1i||>m时,确定传感器失真,此时要将失真数据设置为0,表示该数据缺失。对于数据归一化处理(能够提高缺失值填充模型收敛速度与精度),可以采用min-max标准化方法,将数据映射到0和1之间,该方法可表示为:
Figure BDA0002446035960000041
数据集生成模块用于生成训练集、测试集;对于该模块,首先要从数据预处理模块获取处理后的数据{α,β,X},再将其整理为特定数据格式的数据集,最后将数据集依照比例4:1划分为训练集、测试集。
缺失值填充模块用于训练生成式对抗网络模型并填充时序数据中缺失值;该模块主要分为网络结构设计、模型初始化、前向传播、误差计算、权重更新、模型保存、模型测试这六个部分。
对于网络结构设计部分,该缺失值填充模块的网络结构主要包含两个部分:生成器和判别器。其中,
生成器主要用于拟合真实数据的分布,生成能够以假乱真的数据,其使用了降噪自编码器模型,由一个编码器和一个解码器组成,其中编码器用于将输入的缺失部分数据的时间序列压缩为低维向量z,而解码器用于使用z重构得到完整的时间数据。
该方法使用降噪自编码器,可以通过向输入数据中加入噪声的方式,增强模型的泛化能力。方法中直接生成一个符合高斯分布的随机噪声向量δ,并将其与输入数据进行拼接,作为自编码器的新的输入数据。则该生成器部分的计算方法如下:
z=Encoder(X,δ)
X′=Decoder(z)
此外,编码器使用BiLSTM模型,解码器使用LSTM模型,以保证模型能够获取时间序列上下文信息。
生成器的损失函数主要由两个部分组成:生成器生成样本企图欺骗判别器的损失、降噪自编码器中重构原始数据的损失。其中,对抗网络损失用于评估生成器生成样本与真实样本的相似程度;自编码器重建误差用于评估缺失值填充效果的好坏程度。则生成器的损失函数计算公式如下:
Gloss=-D(G(X))+λ||G(X)-X||2
其中,λ表示降噪自编码器重构损失的系数;X表示输入的缺失部分数据的时间序列。
判别器主要用于判断数据是真实数据还是生成器生成的数据,其结构主要由卷积层、注意力层、LSTM层和全连接层组成。其中,卷积层用于提取变量间的局部依赖关系;注意力层用于有选择的选择输出信息;LSTM层用于提取时间维度上的长期依赖关系;全连接层用于将LSTM层最后一个时刻的输出转化为一维的输出,最后再使用Softmax函数计算得到输入数据为真实样本的概率。
判别器的损失函数主要由两部分组成:生成样本判断为假的损失和真实样本判断为真的损失,其计算公式如下:
Dloss=-D(X)+D(G(X))
对于模型初始化部分,主要用于初始化以上所述的网络中的所有权重及偏置项;
对于前向传播部分,主要利用初始化后的网络和训练集,逐层计算,并输出网络计算结果;
对于误差计算部分,生成器误差主要包括降噪自编码器重建误差和生成样本被识别为“真”的误差之和;判别器误差主要包括生成样本被识别为“假”的误差和真实样本被识别为“真”的误差之和;
对于权重更新部分,主要利用计算得到的误差更新每层网络权重;
对于模型保存部分,主要用于重复执行上述前向传播、误差计算、权重更新这三个部分,直至完成训练次数后,保存训练结果;
对于模型测试部分,主要使用训练集对训练完毕的模型进行测试,评估其性能。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变型,这些改进和变型也应视为本发明的保护范围。

Claims (4)

1.一种基于生成式对抗网络的缺失值填充方法,其特征在于,包括角度传感器、角加速度传感器、油面高度传感器、数据采集模块、数据预处理模块、数据集生成模块和缺失值填充模块,所述角度传感器、角加速度传感器和油面高度传感器均与数据采集模块电连接,所述数据预处理模块与数据采集模块电连接,所述数据集生成模块与数据预处理模块电连接,所述缺失值填充模块与数据集生成模块电连接;缺失值填充模块包括网络结构设计、模型初始化、前向传播、误差计算、权重更新、模型保存以及模型测试这六个部分,网络结构设计部分包含生成器和判别器,生成器使用了降噪自编码器模型,由一个编码器和一个解码器组成,生成一个符合高斯分布的随机噪声向量δ,并将其与输入数据进行拼接,作为自编码器的新的输入数据,编码器使用BiLSTM模型,解码器使用LSTM模型。
2.如权利要求1所述的一种基于生成式对抗网络的缺失值填充方法,其特征在于,数据集生成模块获取数据预处理模块处理后的油面高度数据,并根据预先测得的其对应的油量数据生成数据集,再将数据集依照比例4:1划分为训练集、测试集。
3.如权利要求2所述的一种基于生成式对抗网络的缺失值填充方法,其特征在于,缺失值填充模块的网络结构包括生成器和判别器。
4.如权利要求3所述的一种基于生成式对抗网络的缺失值填充方法,其特征在于,缺失值填充模块训练部分使用优化的损失函数计算损失值,并根据损失值对生成式对抗网络中的各权重矩阵进行更新。
CN202010279538.6A 2020-04-10 2020-04-10 一种基于生成式对抗网络的缺失值填充方法 Active CN111429605B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010279538.6A CN111429605B (zh) 2020-04-10 2020-04-10 一种基于生成式对抗网络的缺失值填充方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010279538.6A CN111429605B (zh) 2020-04-10 2020-04-10 一种基于生成式对抗网络的缺失值填充方法

Publications (2)

Publication Number Publication Date
CN111429605A CN111429605A (zh) 2020-07-17
CN111429605B true CN111429605B (zh) 2022-06-21

Family

ID=71553871

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010279538.6A Active CN111429605B (zh) 2020-04-10 2020-04-10 一种基于生成式对抗网络的缺失值填充方法

Country Status (1)

Country Link
CN (1) CN111429605B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112465150A (zh) * 2020-12-02 2021-03-09 南开大学 基于真实数据增强的多元时序数据填充方法
CN112948743B (zh) * 2021-03-26 2022-05-03 重庆邮电大学 一种基于时空融合的煤矿瓦斯浓度缺失值填充方法
CN113469189B (zh) * 2021-09-02 2021-11-19 国网江西省电力有限公司供电服务管理中心 一种用电采集数据缺失值填充方法、系统及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109165664B (zh) * 2018-07-04 2020-09-22 华南理工大学 一种基于生成对抗网络的属性缺失数据集补全与预测方法

Also Published As

Publication number Publication date
CN111429605A (zh) 2020-07-17

Similar Documents

Publication Publication Date Title
CN111429605B (zh) 一种基于生成式对抗网络的缺失值填充方法
CN110427654B (zh) 一种基于敏感状态的滑坡预测模型构建方法及系统
Austin et al. Determining species response functions to an environmental gradient by means of a β-function
CN113884290B (zh) 基于自训练半监督生成对抗网络的调压器故障诊断方法
CN111458142B (zh) 基于生成对抗网络和卷积神经网络的滑动轴承故障诊断方法
CN111711820B (zh) 一种基于生成对抗网络的裂缝图像压缩采样方法
CN111814956B (zh) 一种基于多维度二次特征提取的多任务学习的空气质量预测方法
CN113496104A (zh) 基于深度学习的降水预报订正方法及系统
CN111199270A (zh) 一种基于深度学习的区域波高预报方法及终端
CN113837499A (zh) 一种超短期风电功率预测方法及系统
CN110458338B (zh) 一种基于再分析资料的海面高度中长期统计预测方法
CN114445634A (zh) 一种基于深度学习模型的海浪波高预测方法及系统
CN112861435B (zh) 一种红树林质量遥感反演方法及智能终端
CN113935249B (zh) 基于压缩和激励网络的上层海洋热结构反演方法
CN115062272A (zh) 一种水质监测数据异常识别及预警方法
CN117056402B (zh) 一种基于多源信号的电机诊断方法、装置及存储介质
Hotta et al. EFSR: Ensemble forecast sensitivity to observation error covariance
CN115046766A (zh) 基于二维灰度图像自适应子空间的小样本轴承故障诊断方法
CN114548281A (zh) 一种基于无监督自适应权重的心脏数据异常检测方法
CN113361782A (zh) 基于改进mkpls的光伏发电功率短期滚动预测方法
CN107067397A (zh) 一种基于红外图像复杂度的图像分级方法
CN111047525A (zh) Sar遥感图像到光学遥感图像的翻译方法
CN116680567A (zh) 一种风力发电机的缺失状态变量填补方法及装置
CN115683620A (zh) 基于群分解和改进多尺度权重散布熵的齿轮箱故障诊断方法
Liu et al. Mining weather data using fuzzy cluster analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant