CN111401553B - 一种基于神经网络的缺失数据填充方法及系统 - Google Patents

一种基于神经网络的缺失数据填充方法及系统 Download PDF

Info

Publication number
CN111401553B
CN111401553B CN202010169564.3A CN202010169564A CN111401553B CN 111401553 B CN111401553 B CN 111401553B CN 202010169564 A CN202010169564 A CN 202010169564A CN 111401553 B CN111401553 B CN 111401553B
Authority
CN
China
Prior art keywords
data
network
self
neural network
encoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010169564.3A
Other languages
English (en)
Other versions
CN111401553A (zh
Inventor
张爱金
朱琨
王然
易畅言
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN202010169564.3A priority Critical patent/CN111401553B/zh
Publication of CN111401553A publication Critical patent/CN111401553A/zh
Application granted granted Critical
Publication of CN111401553B publication Critical patent/CN111401553B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Arrangements For Transmission Of Measured Signals (AREA)

Abstract

本发明涉及一种基于神经网络的缺失数据填充方法及系统。该方法包括:获取历史测量数据;根据所述历史测量数据进行模型训练,得到训练好的神经网络模型;获取发生数据缺失的测量数据;根据训练好的神经网络模型对所述发生数据缺失的测量数据进行估算,得到填充缺失数据后的完整数据。本发明不仅能够提升估算缺失数据的性能,而且能够降低缺失值估算的技术条件。

Description

一种基于神经网络的缺失数据填充方法及系统
技术领域
本发明涉及缺失数据填充领域,特别是涉及一种基于神经网络的缺失数据填充方法及系统。
背景技术
如今,许多的应用都依赖于大量的数据。在移动通信领域,预计到2020 年,移动通信流量将增长约1万倍,联网设备数量将达到约500亿部。而在城市计算的应用场景中,人们部署需要部署大量的传感器网络来进行环境感知,例如进行空气质量的监测、城市噪声值监测等。对于移动通信,运营商需要更加密切的监控电磁环境以及各基站的工作情况,通过持续采集关键性能指标数据来实现网络的监测。这些数据常通过聘请专业人员作定点测量或以群智感知的方式进行采集。而在这些数据的收集过程中,数据往往由于包含部分缺失值,例如一些传感器的损坏或者测量数据在传输过程中的丢失。
在另外一方面,在需要持续进行数据测量的场景中,数据采集、传输等导致很高的成本。以无限网络数据收集为例,在下一代通信技术的发展中,通信数据量将急剧增加而网络的物理设施也将变得复杂。那么,检测移动无线网络的物理层性能需要大量物理层数据,如信号强度RSRP、信号质量RSRQ、信号与干扰比CINR等。这些数据的测量费时费力,并且传输这些数据需要耗费大量的上行带宽。通过局部测量数据估算整体数据能够显著降低数据收集的成本。在这类数据驱动型的应用场景中,当发生数据缺失时,主要通过以下几种方式解决:
1、将不完整的测量值删除,这种方式将测量包含缺失的数据项进行删除。许多统计分析的工具都将这种方式默认为缺失值的处理方式,包括SPSS、 STATA等。然而,这种简单的数据处理方式将会导致数据的浪费。
2、通过人工方式进行修复,例如进行数据重采样。这种方法的缺点在于增加了采样成本,并且效率低下。
3、简单的使用一些常量值如0、数据的均值、中位数、众数等替代缺失值。这类方法缺点在于填充的精度低,可能导致数据偏离其正常的分布。
4、通过算法估算最可能的值。
如附图2所示的场景中,在一定地理区域中进行无线信号的收集。由于无线信号分布特性会随物理环境的变化(例如新建的建筑物)而变化,使得无线信号的收集需要定期更新。通过MDT(Minimum Drive Test)或者专业人员进行定点测量的方式,会花费大量的时间成本和人力成本。节省采集成本的一种最直接的方式,即是减少测量点。然而,测量值的减少导致人们获取到的信息量变少,这对于后续的数据分析和应用是不利的。例如,移动运营商需要收集某区域新架设的基站的信号质量来调整最优的网络配置,局部的测量值可能无法提供足够的分布信息。本发明则是以缺失值估算的角度来解决这个问题,这种方法基于数据内部的时空相关性,利用部分测量点恢复完整数。
人们已经研究了许多技术来估算缺失部分的值。缺失数据填充的模型,主要基于数据之间的时间与空间的相关性。例如,在无线信号的分布中,相邻位置的数据具有很强的空间相关性,这成为许多缺失数据填充算法实现的基础。当前的主要的缺失填充技术包括:
1、压缩感知(compressive sensing),从2006年被提出以后,在医学影像等方面取得了很广泛的应用。其采样率能够低于奈奎斯特采样,很大程度上降低了采样成本。该方法的主要缺点在于需要数据满足严格的技术条件(如RIP 条件)并需要进行完全随机采样。在实际数据无法满足这些条件时,算法的恢复精度将会被降低。
2、矩阵补全(matrix completion)。通过矩阵分解(例如SVD方法)和低秩矩阵近似,将数据恢复问题建模为一个凸优化问题,并使用凸优化工具求解。类似于压缩感知,矩阵补全也基于复杂的技术条件。在数据量较大时,矩阵分解的计算成本很高。
3、K近邻(K Nearest Neighbors),基于空间相关性进行数据填充,这类算法仅仅利用局部信息而没有学习数据的真正特征,难以在数据缺失率较大的情况下保证填充性能。
4、张量补全(tensor completion),张量是将矩阵进行高维扩张,相较于矩阵补全能够同时学习数据的时间维度的相关性和空间相关性。缺陷在于这类算法是一种确定式的,即每次填充均需要进行矩阵分解和优化求解,具有较大的运算成本。
5、神经网络。神经网络中的方法可以通过线性回归(liner regression)的方式来拟合缺失数据。另一类则是通过深度网络模型学习数据的分布,如自编码器网络(autoencoder),其通过无监督或半监督学习的方式来学习数据的低纬度特征,并具有数据生成能力。本发明在自编码器的基础上引入了对抗网络,这一方法能够带来很好的恢复性,同时能够面向更广泛的数据缺失情况。
对于当前方法中主流的矩阵填充模型,其仅能处理数据随机缺失的情况。附图4中展示了一种数据缺失情况的样例。在一份无线网络的热力图构建过程中,数据可能面临各种类型的缺失。图4(a)中为完整的信号分布热力图,图4(b)中数据以完全随机采样,这能够满足矩阵填充的技术需求,图4(c) 和图4(d)中数据的采样并不满足完全随机特性,这种偏离于随机的缺失会导致当前的技术的失效。
发明内容
本发明的目的是提供一种基于神经网络的缺失数据填充方法及系统,不仅能够提升估算缺失数据的性能,而且能够降低缺失值估算的技术条件。
为实现上述目的,本发明提供了如下方案:
一种基于神经网络的缺失数据填充方法,包括:
获取历史测量数据;
根据所述历史测量数据进行模型训练,得到训练好的神经网络模型;
获取发生数据缺失的测量数据;
根据训练好的神经网络模型对所述发生数据缺失的测量数据进行估算,得到填充缺失数据后的完整数据。
可选的,所述根据所述历史测量数据进行模型训练,得到训练好的神经网络模型,具体包括:
根据所述历史测量数据,搭建神经网络,所述神经网络包括自编码器网络和对抗网络;
选择损失函数、激励函数和神经网络训练参数;
根据所述历史测量数据对所述自编码器网络进行训练,并更新所述自编码器网络的参数;
将所述自编码器网络的输出与原始数据输入到所述对抗网络,并更新所述对抗网络的参数;
根据所述损失函数、所述激励函数、所述神经网络训练参数、所述更新后的自编码器网络的参数和所述更新后的对抗网络的参数,确定训练好的神经网络模型。
可选的,所述根据所述历史测量数据对所述自编码器网络进行训练,并更新所述自编码器网络的参数,具体包括:
根据所述历史测量数据对所述自编码器网络进行训练,并采用梯度下降法更新所述自编码器网络的参数。
可选的,所述将所述自编码器网络的输出与原始数据输入到所述对抗网络,并通过梯度下降更新所述对抗网络的参数,具体包括:
将所述自编码器网络的输出与原始数据输入到所述对抗网络,并采用梯度下降法更新所述对抗网络的参数。
一种基于神经网络的缺失数据填充系统,包括:
第一获取模块,用于获取历史测量数据;
训练模块,用于根据所述历史测量数据进行模型训练,得到训练好的神经网络模型;
第二获取模块,用于获取发生数据缺失的测量数据;
估算模块,用于根据训练好的神经网络模型对所述发生数据缺失的测量数据进行估算,得到填充缺失数据后的完整数据。
可选的,所述训练模块,具体包括:
网络搭建单元,用于根据所述历史测量数据,搭建神经网络,所述神经网络包括自编码器网络和对抗网络;
选择单元,用于选择损失函数、激励函数和神经网络训练参数;
第一更新单元,用于根据所述历史测量数据对所述自编码器网络进行训练,并更新所述自编码器网络的参数;
第二更新单元,用于将所述自编码器网络的输出与原始数据输入到所述对抗网络,并更新所述对抗网络的参数;
神经网络模型确定单元,用于根据所述损失函数、所述激励函数、所述神经网络训练参数、所述更新后的自编码器网络的参数和所述更新后的对抗网络的参数,确定训练好的神经网络模型。
可选的,所述第一更新单元,具体包括:
第一更新子单元,用于根据所述历史测量数据对所述自编码器网络进行训练,并采用梯度下降法更新所述自编码器网络的参数。
可选的,所述第二更新单元,具体包括:
第二更新子单元,用于将所述自编码器网络的输出与原始数据输入到所述对抗网络,并采用梯度下降法更新所述对抗网络的参数。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明通过搭建神经网络进行缺失数据填充的方法,能够提升估算缺失数据的性能并降低缺失值估算的技术条件使其更加实用。应用到面向无线信号测量、城市环境测量、无线传感器网络等应用场景中,能够无需数据低秩特性和完全随机缺失条件。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明基于神经网络的缺失数据填充方法流程图;
图2为本发明基于神经网络的缺失数据填充方法示意图;
图3为本发明的整体结构示意图;
图4为本发明数据缺失情况示意图;
图5为本发明进行模型性能评测的数据采样过程示意图;
图6为数据处于完全随机缺失状态的实验结果对比图;
图7为数据处于块缺失状态实验结果对比图;
图8为数据处于混合性缺失实验结果对比图;
图9为本发明基于神经网络的缺失数据填充系统结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种基于神经网络的缺失数据填充方法及系统,不仅能够提升估算缺失数据的性能,而且能够降低缺失值估算的技术条件。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明基于神经网络的缺失数据填充方法流程图。如图1所示,一种基于神经网络的缺失数据填充方法包括:
步骤101:获取历史测量数据。
本发明应用于如附图2所示的应用场景中。在一定区域内进行数据测量,其完整的真实数据为Y,而获得局部测量值为X,以测量矩阵M表示该区域内测量每一个点的测量状态,即X=Y⊙M,⊙表示矩阵的元素相乘。测量矩阵M定义如(1)所示,这个测量矩阵,表示了实际在数据测量过程中,哪些数据收到了测量值而哪些没有收到测量。
其中,Mij指示采样矩阵中第i行,第j列的元素。测量的数据可以为信号强度RSRP、信号质量RSRQ、信号与干扰比CINR、无线网络信号质量、空气质量、传感器网络数据等。
步骤102:根据所述历史测量数据进行模型训练,得到训练好的神经网络模型,具体包括:
根据所述历史测量数据,搭建神经网络,所述神经网络包括自编码器网络和对抗网络。
选择损失函数、激励函数和神经网络训练参数。
根据所述历史测量数据对所述自编码器网络进行训练,并更新所述自编码器网络的参数,具体的,根据所述历史测量数据对所述自编码器网络进行训练,并采用梯度下降法更新所述自编码器网络的参数。
将所述自编码器网络的输出与原始数据输入到所述对抗网络,并更新所述对抗网络的参数,具体的,将所述自编码器网络的输出与原始数据输入到所述对抗网络,并采用梯度下降法更新所述对抗网络的参数。
根据所述损失函数、所述激励函数、所述神经网络训练参数、所述更新后的自编码器网络的参数和所述更新后的对抗网络的参数,确定训练好的神经网络模型。
神经网络是由全连接的感知层构成,结构联合了自编码器网络和对抗网络。包括一个输出层、中间层(中间层为九层,包括编码器三层、解码器三层、对抗网络三层)和一个输出层。结构如附图3所示意。
自编码器假设高维的数据X是由低维度的隐变量z所控制且z服从一定的先验分布。例如,对于无线信号,接收信号的分布特征主要是由基站特征和信道特征所决定的。而基站特征则主要为发生功率、天线辐射角等几个配置参数决定。信道特征则是由环境中的建筑物和树等遮挡物等所决定。在一定区域内收集大量的无线信号后,信号的分布情况比较复杂且难以由多维高斯分布拟合。而解析无线信号的隐性分布特征,即解析基站特征和信道特征等决定信号分布的因素。
自编码器网络的实施流程为:编码器E将局部测量数据X作为输入,输入端的数据中使用高斯随机变量∈代替未采样的数据。解码器D将 z作为输入,并输出数据D(z)。由式(2)与式(3)所示:
z=E(X⊙M+(1-M)⊙∈)  (2)
其中,E表示对表达式求期望,表示解码器所解码的数据,M表示测量矩阵,∈表示高斯随机噪声,z为自编码器学习得到的隐性特征。对于无线信号,编码器学习到决定信号分布的参数,即影响无线信号分布特征的基站配置、环境参数等整体因素。而表示结合局部测量值与学习的隐性特征所计算得到的完整的数据空间,其中D(z)⊙(1-M)表示解码器根据数据的隐性特征估算得到的缺失值部分。从而,数据X的分布是由条件概率分pθ(x|z)所决定。θ是对应隐性特征映射到数据空间的参数,对于无线信号从环境参数映射至信号数据空间的方式,这是通过自编码器中的解码器所完成。
尽管自编码器网络具有特征学习和数据生成的能力,其数据生成的能力还需要进一步提高。本发明的方法在自编码器的基础上进一步引入生成对抗网络作为鉴别器。在恢复无线信号数据时,将完整的信号数据与通过自编码器输出的估算数据输入到鉴别器D中。若模型估算的结果不能很好的提取数据内部的信息,例如相邻数据的相关性、数值变化的梯度等,鉴别器就能够轻易区分。
对抗网络的实施过程为:输入完整的数据集与自编码器的解码输出,输出为对二者的分类结果。将鉴别器表示为函数,其中d是完整数据的维数。对于无线信号收集过程,若需要采集1000个标记点的无线数据,那么d即为1000× 1。鉴别网络的目标函数为:
其中,x代表数据变量,D代表整体测量数据空间,pD(x)为测量数据的分布,z为编码器的编码输出,即公式(2)中的隐性特征。pθ(x|z)为解码器的输出数据(即重构数据),θ是表征重构数据分布特征的参数,σ为神经网络激活函数,T代表鉴别网络。E代表对表达式求期望, EpD(x)logσ(T(x))表示对表达式logσ(T(x))在pD(x)下求期望。
在本模型中,编码器E将测量数据映射到隐性空间z,然后解码器D将z 映射到数据空间,而鉴别器T的目的是将测量数据的分布与恢复分布区分开来,鉴别器T与自动编码器进行min-max的对抗。例如,在恢复无线信号时,T 网络将真实的无线信号与通过局部测量估算的无线信号进行鉴别。当自编码器不能很好的估算数据的真正分布和内部相关性时,鉴别器能够轻易的将这两份数据区分开来。通过自编码器与鉴别器二者的对抗,最后系统输出的无线数据能够非常符合真实情况。
由所定义的神经网络,在模型训练过程中,将一个区域中的完整数据Y 进行局部测量,将测量所得数据X输入到自编码器中,将自编码器的输出和Y输入到对抗网络中。以如下所示的神经网络的损失函数进行模型训练。自编码器的损耗函数由三部分组成:
Lvae=Lkl+LrecvaeEpθ(x)p(∈)  (5)
其中,λvae代表与自编码器(VAE)相关的系数,用于平衡这三个损失的参数,被设置为0.001,以确保恢复数据捕捉到输入数据的分布。Epθ(x)p(∈)中, p(∈)表示高斯随机变量∈的分布,pθ(x)则表示重构数据变量的分布,θ是表征数据分布特征的参数,Epθ(x)p(∈)表示这两个分布的乘积的期望。Lvae中的最后一项帮助更新自编码器,它使用对抗网进行最小-最大博弈,从而使恢复分布更接近输入。Lkl为KL函数部分的损耗函数,具体如下,
其中,μ表示数据均值,σ表示方差,σi表示第i维数据的方差,d表示数据维度。重构误差Lrec为:
Lrec帮助模型捕获测量数据的总体分布。然而,它往往会平均预测区域的训练损失,有时会导致模糊的结果。因而,对抗网络则是处理这方面的问题。估算无线信号时,无线信号在建筑物密集的地方变化幅度更剧烈,这时候由于模型的训练损耗被平均化,估算结果就在这些剧烈变化的地方出现模糊。因而,引入的鉴别网络能够通过对抗的方式提升模型在学习数据内部变化程度(矩阵梯度相关的信息)。最后,对抗网络的损失函数为
其中,p(∈)表示高斯随机变量∈的分布,pD(x)则为原始数据变量的分布, D是整体测量数据,x代表测量数据变量,E表示求期望。Epθ(x)p(∈)pθ(x)则表示重构数据变量的分布,θ是表征重构数据分布特征的参数。最小化损失函数使得判别器的判别能力最大。
步骤103:获取发生数据缺失的测量数据。
步骤104:根据训练好的神经网络模型对所述发生数据缺失的测量数据进行估算,得到填充缺失数据后的完整数据。
当实时测量数据发生数据缺失时,将局部测量值输入到神经网络的自编码中,得到解码器的输出即为估算的完整的数据空间的值。
整体算法流程如下所示:
输入数据:测量数据X与测量矩阵M
输出值:
1.从X中随机m取个样本;
2.生成m份高斯随机值为∈(∈~N(0,1);
3.根据式2,更新z;
4.根据式3,更新
5.根据式4,更新T网络;
6.根据式5计算误差函数,并计算自编码器网络的参数gθ和gφ, 其中θ与φ分别代表神经网络中编码器E与解码器D的参数;
7.根据式8计算T网络的误差函数,计算T网络的参数的梯度
其中ψ代表神经网络中鉴别器T的参数;
8.通过随机梯度方法(SGD)进行参数更新:θ=θ+α*gθ,φ=φ+ α*gφ,ψ=φ+α*gψ,其中α为训练步长,控制神经网络梯度优化时的训练速度,可设置为0.001;
9.重复步骤1-8,直到网络收敛(损耗函数收敛)。
如附图5所示,搭建无线信号采集模型来模拟无线网络数据采集过程,下面将据此进行问题分析和算法性能比较。在测量无线网络信号时,数据的分布受到物理环境的变化而变得非常复杂,以多元高斯分布去拟合其后验分布将会严重影响模型的精度。类似的,在无线传感器网络、环境测量等应用场景下,数据的分布特征也时常因而复杂的物理环境而变得复杂。处理实际应用中的缺失值估算方法,面临着这两个挑战:
1、如何在数据缺失率较大的情况下保持估算精度。既然能够降低采样点来降低采样成本,那么,尽可能少的样本采集将会为成本控制带来更多的实际意义。而样本空间的减少,将会导致样本包含的信息量降低,使一些算法(例如K近邻)的性能大幅降低。
2、如何在数据缺失状态为非随机缺失时保持估算性能。数据的缺失过程不满足完全随机缺失时,往往会偏离一些算法的技术条件(例如压缩感知),这将导致算法的估算精度大大下降。而在数据的实际测量过程中,存在一些人为因素可能使采样过程偏离完全随机缺失的过程。因此,一套能够处理非随机缺失的算法会有关键的作用,然而目前相关的方法还比较少。
下面介绍本发明的实施过程以及分析本发明在处理以上两个挑战时的性能。在如附图5的场景中测量一批完整的无线信号Y。在数据采集过程中,通过四台无线电设备USRP作为信号发射端,一台USRP作为信号采集器。在指定区域内划分好小格子,在每个小格子中进行数据采集,这个区域的数据具有空间上的相关性,以及能够建模为矩阵进行缺失数据填充。控制信号的发射源发射不同强度的信号以分析数据的变化对模型的泛化能力。测量获得四十组Y,每组Y为10×15的数值矩阵,矩阵中的每一个值代表一个位置上的无线信号强度。
将这四十组Y分为训练集与测试集。在模型训练时,以测量矩阵M(M 的定义如式(1)所示)对Y进行测量得到X,如步骤1所示。X、M与Y输入到神经网络中(输入方式如步骤102),并根据步骤102进行模型训练。训练结束后,取测试集中的Y,利用M进行采样模型实际测量数据的过程,以神经网络的输出为模型的估算值(对应步骤104)。将估算值与Y对比并计算估算平均绝对误差。
本发明的方法为对抗性自编码器(Adversarial Auto Encoder,AAE),对比的算法采用了矩阵填充(MC)和自编码器(AE)。在处理附图6、7、8展示了在三种缺失率达到0.9情况下,缺失数据恢复的平均绝对误差的概率分布情况。附图4的例子阐述了这几种缺失情况。如图6中,数据处于完全随机缺失状态,这种缺失情况如附图4(b)所示,可见本发明的方法在这类与矩阵填充的性能相似。事实上,这是一种理想情况下的数据缺失状态,其能够满足矩阵填充等传统方法的技术需求,因而三种方法的性能差异不大。在图7和附图8中,面临更复杂的缺失状况,本发明的方法具有更优的性能。
面向实际的数据测量过程,如无线信号收集,由于人为因素、地理环境等潜在元素,数据缺失并不一定满足完全随机缺失情况,从本实例中也可以看出,矩阵填充方式并不能处理。对此,本发明的方法放宽了估算缺失值所需要的技术条件(不要求数据处于完全随机缺失状态),能够在数据缺失率大、数据非随机缺失的情况下表现更优的性能。本发明的方法求取其隐性空间的特征,在于求解决定信号分布特征的元素(维度低于原始数据维度)。因而,本发明的方法在面向诸如无线信号测量、传感器网络测量等问题时,能够在缺失值估算方面具有非常实用的价值。
图9为本发明基于神经网络的缺失数据填充系统结构图。如图9所示,一种基于神经网络的缺失数据填充系统,包括:
第一获取模块201,用于获取历史测量数据。
训练模块202,用于根据所述历史测量数据进行模型训练,得到训练好的神经网络模型。
第二获取模块203,用于获取发生数据缺失的测量数据。
估算模块204,用于根据训练好的神经网络模型对所述发生数据缺失的测量数据进行估算,得到填充缺失数据后的完整数据。
所述训练模块202,具体包括:
网络搭建单元,用于根据所述历史测量数据,搭建神经网络,所述神经网络包括自编码器网络和对抗网络。
选择单元,用于选择损失函数、激励函数和神经网络训练参数。
第一更新单元,用于根据所述历史测量数据对所述自编码器网络进行训练,并更新所述自编码器网络的参数。
第二更新单元,用于将所述自编码器网络的输出与原始数据输入到所述对抗网络,并更新所述对抗网络的参数。
神经网络模型确定单元,用于根据所述损失函数、所述激励函数、所述神经网络训练参数、所述更新后的自编码器网络的参数和所述更新后的对抗网络的参数,确定训练好的神经网络模型。
所述第一更新单元,具体包括:
第一更新子单元,用于根据所述历史测量数据对所述自编码器网络进行训练,并采用梯度下降法更新所述自编码器网络的参数。
所述第二更新单元,具体包括:
第二更新子单元,用于将所述自编码器网络的输出与原始数据输入到所述对抗网络,并采用梯度下降法更新所述对抗网络的参数。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (6)

1.一种基于神经网络的缺失数据填充方法,其特征在于,包括:
获取历史测量数据;
根据所述历史测量数据进行模型训练,得到训练好的神经网络模型,具体包括:
根据所述历史测量数据,搭建神经网络,所述神经网络包括自编码器网络和对抗网络;
选择损失函数、激励函数和神经网络训练参数;
根据所述历史测量数据对所述自编码器网络进行训练,并更新所述自编码器网络的参数;
将所述自编码器网络的输出与原始数据输入到所述对抗网络,并更新所述对抗网络的参数;
根据所述损失函数、所述激励函数、所述神经网络训练参数、所述更新后的自编码器网络的参数和所述更新后的对抗网络的参数,确定训练好的神经网络模型;
获取发生数据缺失的测量数据;
根据训练好的神经网络模型对所述发生数据缺失的测量数据进行估算,得到填充缺失数据后的完整数据。
2.根据权利要求1所述的基于神经网络的缺失数据填充方法,其特征在于,所述根据所述历史测量数据对所述自编码器网络进行训练,并更新所述自编码器网络的参数,具体包括:
根据所述历史测量数据对所述自编码器网络进行训练,并采用梯度下降法更新所述自编码器网络的参数。
3.根据权利要求1所述的基于神经网络的缺失数据填充方法,其特征在于,所述将所述自编码器网络的输出与原始数据输入到所述对抗网络,并通过梯度下降更新所述对抗网络的参数,具体包括:
将所述自编码器网络的输出与原始数据输入到所述对抗网络,并采用梯度下降法更新所述对抗网络的参数。
4.一种基于神经网络的缺失数据填充系统,其特征在于,包括:
第一获取模块,用于获取历史测量数据;
训练模块,用于根据所述历史测量数据进行模型训练,得到训练好的神经网络模型;
第二获取模块,用于获取发生数据缺失的测量数据;
所述训练模块,具体包括:
网络搭建单元,用于根据所述历史测量数据,搭建神经网络,所述神经网络包括自编码器网络和对抗网络;
选择单元,用于选择损失函数、激励函数和神经网络训练参数;
第一更新单元,用于根据所述历史测量数据对所述自编码器网络进行训练,并更新所述自编码器网络的参数;
第二更新单元,用于将所述自编码器网络的输出与原始数据输入到所述对抗网络,并更新所述对抗网络的参数;
神经网络模型确定单元,用于根据所述损失函数、所述激励函数、所述神经网络训练参数、所述更新后的自编码器网络的参数和所述更新后的对抗网络的参数,确定训练好的神经网络模型;
估算模块,用于根据训练好的神经网络模型对所述发生数据缺失的测量数据进行估算,得到填充缺失数据后的完整数据。
5.根据权利要求4所述的基于神经网络的缺失数据填充系统,其特征在于,所述第一更新单元,具体包括:
第一更新子单元,用于根据所述历史测量数据对所述自编码器网络进行训练,并采用梯度下降法更新所述自编码器网络的参数。
6.根据权利要求4所述的基于神经网络的缺失数据填充系统,其特征在于,所述第二更新单元,具体包括:
第二更新子单元,用于将所述自编码器网络的输出与原始数据输入到所述对抗网络,并采用梯度下降法更新所述对抗网络的参数。
CN202010169564.3A 2020-03-12 2020-03-12 一种基于神经网络的缺失数据填充方法及系统 Active CN111401553B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010169564.3A CN111401553B (zh) 2020-03-12 2020-03-12 一种基于神经网络的缺失数据填充方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010169564.3A CN111401553B (zh) 2020-03-12 2020-03-12 一种基于神经网络的缺失数据填充方法及系统

Publications (2)

Publication Number Publication Date
CN111401553A CN111401553A (zh) 2020-07-10
CN111401553B true CN111401553B (zh) 2023-04-18

Family

ID=71436190

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010169564.3A Active CN111401553B (zh) 2020-03-12 2020-03-12 一种基于神经网络的缺失数据填充方法及系统

Country Status (1)

Country Link
CN (1) CN111401553B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112183723B (zh) * 2020-09-17 2022-07-05 西北工业大学 一种针对临床检测数据缺失问题的数据处理方法
CN112417000B (zh) * 2020-11-18 2022-01-07 杭州电子科技大学 一种基于双向循环编解码器神经网络的时间序列缺失值填充方法
CN112381303A (zh) * 2020-11-19 2021-02-19 北京嘀嘀无限科技发展有限公司 一种任务指标数据预测方法和系统
CN112702329B (zh) * 2020-12-21 2023-04-07 四川虹微技术有限公司 一种流量数据异常检测方法、装置和存储介质
CN113325714B (zh) * 2021-06-09 2023-02-24 西北工业大学 基于矩阵补全及神经网络pid的智能节水型喷洒系统及方法
CN113688869B (zh) * 2021-07-21 2022-05-27 广东工业大学 一种基于生成对抗网络的光伏数据缺失重构方法
CN115374957B (zh) * 2022-06-22 2024-02-27 国网浙江省电力有限公司丽水供电公司 一种径流式小水电多尺度缺失量测数据重建方法
CN115381438B (zh) * 2022-08-24 2023-04-18 华南师范大学 生命体征信号的重建方法、装置、计算机设备和存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109815223A (zh) * 2019-01-21 2019-05-28 北京科技大学 一种针对工业监测数据缺失的补全方法及补全装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101782743A (zh) * 2010-02-11 2010-07-21 浙江大学 神经网络建模方法及系统
CN102025531B (zh) * 2010-08-16 2014-03-05 北京亿阳信通科技有限公司 一种性能数据的填补方法及其装置
CN108197080A (zh) * 2016-12-08 2018-06-22 广东精点数据科技股份有限公司 一种基于多种算法融合的缺失值插补方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109815223A (zh) * 2019-01-21 2019-05-28 北京科技大学 一种针对工业监测数据缺失的补全方法及补全装置

Also Published As

Publication number Publication date
CN111401553A (zh) 2020-07-10

Similar Documents

Publication Publication Date Title
CN111401553B (zh) 一种基于神经网络的缺失数据填充方法及系统
CN109165664B (zh) 一种基于生成对抗网络的属性缺失数据集补全与预测方法
CN112988723A (zh) 一种基于空间自注意力图卷积循环神经网络的交通数据修复方法
CN115293280A (zh) 基于时空特征分割重构的动力装备系统异常检测方法
CN115618296A (zh) 一种基于图注意力网络的大坝监测时序数据异常检测方法
CN112437451B (zh) 一种基于生成对抗网络的无线网络流量预测方法和设备
CN116557787B (zh) 管网状态智能评估系统及其方法
CN114861788A (zh) 一种基于dbscan聚类的负荷异常检测方法及系统
CN116702093B (zh) 一种基于大数据数据融合的海上目标定位方法
CN114449452A (zh) 一种异构设备室内定位算法
CN112307927A (zh) 基于bp网络针对非合作通信中mpsk信号的识别研究
CN115730684A (zh) 一种基于lstm-cnn模型的空气质量检测系统
CN116935649A (zh) 多视角融合的时空动态图卷积网络城市交通流量预测方法
CN115018193A (zh) 基于lstm-ga模型的时间序列风能数据预测方法
CN114036992A (zh) 基于自编码器和遗传算法的高维数据异常子空间检测方法
CN114048546A (zh) 一种基于图卷积网络和无监督域自适应的航空发动机剩余使用寿命预测方法
CN112001115B (zh) 一种半监督动态软测量网络的软测量建模方法
CN115659249B (zh) 一种智能测站控制系统异常检测方法
CN117313516A (zh) 一种基于时空图嵌入的发酵产物预测方法
CN116894180A (zh) 一种基于异构图注意力网络的产品制造质量预测方法
CN111859241A (zh) 一种基于声传递函数学习的非监督声源定向方法
CN116244199A (zh) 一种基于多神经网络的运维数据异常检测方法
CN116234005A (zh) 一种多建筑物室内定位方法
CN113377630B (zh) 一种通用的kpi异常检测框架实现方法
CN115062764A (zh) 光照度智能调节与环境参数物联网大数据系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant