CN113536373B - 一种脱敏气象数据的生成方法 - Google Patents
一种脱敏气象数据的生成方法 Download PDFInfo
- Publication number
- CN113536373B CN113536373B CN202110770127.1A CN202110770127A CN113536373B CN 113536373 B CN113536373 B CN 113536373B CN 202110770127 A CN202110770127 A CN 202110770127A CN 113536373 B CN113536373 B CN 113536373B
- Authority
- CN
- China
- Prior art keywords
- data
- meteorological data
- real
- training
- data set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
- G06F21/6254—Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Bioethics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种脱敏气象数据的生成方法,包括步骤1:获取真实气象数据集;步骤2:对真实气象数据集进行预处理;步骤3:构建新的深度卷积生成对抗网络;步骤4:构建脱敏气象数据生成模型MDCGAN;步骤5:训练脱敏气象数据生成模型MDCGAN;步骤6:利用步骤5所述的脱敏气象数据生成模型MDCGAN生成脱敏的气象数据;本发明在基于生成对抗网络生成气象数据的过程中引入了差分隐私保护的设计,通过训练一个差分私有生成器来解决生成数据的安全性问题,可以在不侵犯训练数据隐私的情况下生成无限多个安全的生成数据,使得生成的气象数据可以同时满足数据增强和数据脱敏的要求。
Description
技术领域
本发明涉及气象技术领域,尤其涉及一种脱敏气象数据的生成方法。
背景技术
人工智能技术近年来已经开始在气象领域得到了探索性的应用并展现出了明显的优势,基于深度学习的人工智能技术使得气象预报的准确性大幅度提升。在大数据分析或深度学习这些数据驱动的任务中,经常会面临数据量不足的问题,寻找研究数据往往占据很大一部分时间,这是困扰很多研究者的问题。尤其是在基于深度学习的任务中,在训练中需要大量的数据。数据不足经常导致实际研究中更多地使用小样本数据,而基于小样本数据的研究中往往会存在各种各样的问题。一种解决方法是采用专门针对小样本学习规律的机器学习方法,比如统计学习(Statistic Learning Theory)等,但这种方法的泛化性能较差且计算困难。另一种解决方法是数据增强(Data Augmentation)。
数据增强是指通过预处理对训练数据进行扩增的过程。在深度学习任务中,模型的往往是由数据驱动的,训练数据质量的好坏直接影响到模型的性能。而即使有海量的数据集,在输入模型前的图像预处理中,数据增强依然是无法避免的,所以数据增强是目前几乎所有深度学习训练的前置任务。在传统的数据增强或数据集扩充方法中,对训练数据的增强是指通过简单的一些变换操作使得网络的训练数据得到增加而标注依然可用的过程,其中也包括多种变换操作的组合,这些操作包括旋转/反射(Rotation/Reflection)、翻转(Flip)、缩放(Zoom)、平移(Shift)、尺度变换(Contrast)、噪声扰动(Noise disturbance)、颜色变换(Color transformation)等。传统数据增强方法都是有监督的方式,生成的都是有限的可信替代数据。具体到不同的任务、不同的数据对数据增强方法的敏感性是不同的,传统数据增强方法容易出现人为引入的混淆,导致模型性能变差的现象。而基于生成对抗网络(Generative Adversarial Network,GAN)的数据增强方法,是基于对源数据集样本分布特征的学习,可以有效地模拟源数据的分布,生成与源数据分布相似的数据。生成的数据具有源数据的统计特征,因此具有更好的数据效用和分析价值,可以从中分析出有意义的结论。基于生成对抗网络的数据增强的另一个优点体现在它是无监督的,无需标记数据,减少了大量枯燥的数据标记工作。基于生成对抗网络的数据增强方法优于传统的数据增强或数据集扩充方法,目前是深度学习的一个研究热点。
基于生成对抗网络的原理,还可将其应用在数据脱敏方面。数据共享可以加快科学的进步,但是在一些行业中敏感数据的共享应该受到某些限制。涉密数据的共享有数据泄露的风险,需要对数据进行脱敏处理。传统方式的脱敏通常采用数据掩盖和数据混淆的方式,或是采用数据噪声化、随机化、匿名化的方式。虽然传统方法多种多样,但都存在一定问题,比如数据遮盖会对数据造成破坏,影响下游的数据分析工作;同态加密、数据匿名化需要很高计算成本。基于生成对抗网络的数据脱敏方法生成的是与源数据集概率分布相同的数据,共享模拟源数据的生成数据不会有信息泄露的风险。
基于深度学习的人工智能技术使得气象预报的准确性大幅度提升。深度学习模型在训练中需要大量的数据,但气象数据存在收集周期长、成本高、部分气象数据需要脱敏等问题。使用基于生成对抗网络的方法生成气象数据来扩充深度学习的训练数据集,即降低了收集成本,也缩短了研究周期,但是并不能满足数据脱敏的要求。
发明内容
本发明的目的在于提供一种脱敏气象数据的生成方法,使得生成的气象数据可以同时满足数据增强和数据脱敏的要求。
为了实现上述目的,本发明采用以下技术方案:
一种脱敏气象数据的生成方法,包括以下步骤:
步骤1:获取真实气象数据集;
步骤2:对真实气象数据集进行预处理,使其满足深度学习模型训练的要求;
步骤3:对深度卷积生成对抗网络进行改进,构建新的深度卷积生成对抗网络,具体的:
步骤3.1:去掉深度卷积生成对抗网络的池化层,生成器中使用反卷积进行上采样,判别器中使用跨距卷积代替池化层;
步骤3.2:生成器和判别器中增加批量归一化操作;
步骤3.3:去掉深度卷积生成对抗网络的全连接层,使用全局池化代替;
步骤3.4:生成器中输出层使用Tanh激活函数,隐藏层使用ReLU激活函数;
步骤3.5:判别器中输出层使用Sigmoid激活函数,隐藏层使用LeakyReLU激活函数;
步骤4:构建脱敏气象数据生成模型MDCGAN,具体的:训练步骤3中所述的新的深度卷积生成对抗网络的判别器,并在训练新的深度卷积生成对抗网络的判别器过程中添加噪声扰动;
步骤5:训练脱敏气象数据生成模型MDCGAN,具体的:
步骤5.1:使用结合差分隐私的Adam优化算法训练脱敏气象数据生成模型MDCGAN,具体的,采用差分隐私梯度下降方法通过梯度裁剪方式限制每个样本的敏感度,然后对样本添加高斯噪声;
步骤5.2:更新判别器;
步骤5.3:更新生成器;
步骤6:利用步骤5所述的脱敏气象数据生成模型MDCGAN生成脱敏的气象数据。
步骤1所述的获取真实气象数据集的方法为:使用来自美国国家海洋和大气管理局公开的肯尼迪机场自2010年1月1日至2021年1月1日的气象数据集作为真实气象数据集。
步骤2所述的对真实气象数据集进行预处理,使其满足深度学习模型训练的要求的方法为:
步骤2.1:删除真实气象数据集中列值为空以及列值完全相同的列;
步骤2.2:将保留的真实气象数据集中的数值类型转换为float数值类型;
步骤2.3:使用FM-15读数对保留的真实气象数据集进行过滤,获取测量间隔为一小时的数据集;
步骤2.4:将保留的真实气象数据集中的数值规范在NOAA Local ClimatologicalData Documentation定义的参数之内,否则将此数值置为空,然后和缺失值一同进行填充;缺失值和置为空的数值的填充方法为:使用最近的有效观测值进行填充;所述的最近的有效观测值指最近记录的在NOAA Local Climatological Data Documentation定义的参数之内的同类观测值;最终得到预处理后的真实气象数据集。
与现有技术相比,本发明的有益效果为:
本发明所述的一种脱敏气象数据的生成方法,在基于生成对抗网络生成气象数据的过程中引入了差分隐私保护的设计,通过训练一个差分私有生成器来解决生成数据的安全性问题;本发明从差分隐私的角度为训练数据提供了可靠的隐私控制,可以在不侵犯训练数据隐私的情况下生成无限多个安全的生成数据,使得生成的气象数据可以同时满足数据增强和数据脱敏的要求。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为新的深度卷积生成对抗网络的生成器结构示意图;
图2为脱敏气象数据生成模型MDCGAN结构示意图;
图3为训练过程中生成器和判别器的损失函数的变化曲线示意图;
图4为4个气象变量概率分布图示意图;
图5为真实数据与生成数据的Heatmap示意图;
图6为DRYBULBTEMPF变化对比示意图;
图7为生成数据时间序列模型预测结果示意图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明所述的一种脱敏气象数据的生成方法,包括以下步骤:
步骤1:获取真实气象数据集,具体的:
为了验证本发明的可行性和有效性,本发明所述的一种脱敏气象数据的生成方法使用了来自美国国家海洋和大气管理局(NOAA)公开的肯尼迪机场自2010年1月1日至2021年1月1日的真实气象数据集,真实气象数据集由位于纽约皇后区约翰·肯尼迪国际机场的NOAA气象站收集;其中包含各种局部气候变量(包括能见度,温度,风速和方向,湿度,露点和压力)的每天24次观测。
步骤2:对真实气象数据集进行预处理,使其可以满足深度学习模型训练的要求;具体的,真实气象数据集的预处理包括以下步骤:
步骤2.1:删除真实气象数据集中列值为空以及列值完全相同的列或保留关键列作为研究对象,所述的关键列为能见度列、温度列以及风速列;
步骤2.2:将保留的真实气象数据集中的数值类型转换为float数值类型,便于进行后续的分析;
步骤2.3:使用FM-15读数对保留的真实气象数据集进行过滤,获取测量间隔为一小时的数据集;
步骤2.4:将保留的真实气象数据集中的数值规范在NOAA Local ClimatologicalData Documentation定义的参数之内;具体的,比如VISIBILITY的定义在[1,10],那么将保留的真实气象数据集中大于10或小于1的数值置为空,然后和缺失值一同进行填充;缺失值和置为空的数值的填充方法为:使用最近的有效观测值进行填充;最近的有效观测值指最近记录的在NOAA Local Climatological Data Documentation定义的参数之内的同类观测值;最终得到预处理后的真实气象数据集,如表1所示:
表1 预处理后的数据
步骤3:对深度卷积生成对抗网络(DCGAN)进行改进,构建新的深度卷积生成对抗网络,具体的:
为了能够处理预处理后的真实气象数据集,本发明构建新的深度卷积生成对抗网络的方法为对传统的深度卷积生成对抗网络(DCGAN)进行了改进,步骤如下:
步骤3.1:去掉深度卷积生成对抗网络(DCGAN)的池化层,生成器中使用反卷积进行上采样,判别器中使用跨距卷积代替池化层;
步骤3.2:生成器和判别器中增加批量归一化操作;
步骤3.3:去掉深度卷积生成对抗网络(DCGAN)的全连接层,使用全局池化代替;
步骤3.4:生成器中输出层使用Tanh激活函数,隐藏层使用ReLU激活函数;
步骤3.5:判别器中输出层使用Sigmoid激活函数,隐藏层使用LeakyReLU激活函数;
在生成器和判别器中使用批量归一化,解决了网络初始化差的问题,使梯度传播到每一层,避免了生成器将样本收敛到同一点;另外使用全局池化代替全连接层,虽然降低了模型收敛速度,但增加了稳定性;新的深度卷积生成对抗网络的生成器结构如图1所示:新的深度卷积生成对抗网络生成器接收一个100维的高斯噪声,经过不断的反卷积直到生成64×64×3大小的矩阵;新的深度卷积生成对抗网络的判别器和生成器是对称的,接收生成器生成的样本和真实样本经过一系列卷积输出判别结果;
步骤4:构建脱敏气象数据生成模型MDCGAN(Meteorology Deep ConvolutionalGenerative Adversarial Network),具体的:训练步骤3中所述的新的深度卷积生成对抗网络的判别器,并在训练新的深度卷积生成对抗网络的判别器过程中添加噪声扰动来实现差分隐私保护;具体的:
脱敏气象数据生成模型MDCGAN的结构如图2所示:
假设存在一个随机函数M,使得M在任意两个相邻的数据集D和D'上得到任意相同输出集合S的概率满足,
Pr[M(D)∈S]≤eε×Pr[M(D)∈S]+δ (1)
则称该随机函数M满足(ε,δ)-差分隐私,简写为(ε,δ)-DP;其中Pr()表示概率密度函数;参数ε是隐私预算,ε值与隐私保护程度呈负相关;δ是隐私偏差,表示违背严格差分隐私的概率;
对于任意函数f=D→Rd,输入为一数据集,输出为d维实数向量,对于两个相邻的数据集D和D',函数f的全局敏感度为,
其中||·||p表示Lp范数;敏感度衡量了单条记录对于函数f的最大影响,它决
定了需要向函数f的输出结果添加多少噪声来实现差分隐私;
对于任意函数f=D→Rd,若用L2范数来定义敏感度,对于两个相邻的数据集D和D',函数f的全局敏感度为,
函数扰动算法M可以依据高斯分布向函数f添加噪声来实现差分隐私,
M(d)=f(D)+N(0,(Δfσ)2I) (4)
本发明中,将步骤2所述的预处理后的真实气象数据集x送入带有差分隐私保护的新的深度卷积生成对抗网络的判别器中,判别器会与生成器进行对抗训练;生成器接收一组分布函数为Pz噪声z,经过生成器网络,生成分布函数为Pg的假样本数据;生成器需学习将噪声分布Pz映射到真实数据集分布Pdata,使判别器将生成数据误判定为真实数据的概率越大越好;判别器实际上是一个二分类器,判别器接收两部分内容,真数据以及生成器生成的假样本数据,经过判别器网络,将真样本判别为真,将假样本判别为假,其输出值是一个概率,即[0,1]之间的值,表示其输入数据的分布是真是假;判别器将自己判断的结果返回给生成器,指导生成器训练,使Pg尽可能接近Pdata,这使得二者可以在对抗的同时也在共同进步;在训练数据的过程中,通过不断地计算判别器的梯度,加入高斯噪声并根据梯度大小进行梯度惩罚,距离L2范数越近惩罚越小,越远则越大;差分隐私输出之后的任何映射都满足差分隐私,且不会累计多余的隐私损失,所以生成器可以保证数据的差分隐私;
由于步骤3中所述的新的深度卷积生成对抗网络生成的数据集不能满足数据脱敏性的要求,应用于敏感数据时存在极大的安全隐患,攻击者可以从生成样本的分布中重构出训练样本;由于新的深度卷积生成对抗网络复杂度高和其对抗性训练过程,使生成数据分布的密度集中在训练样本的周围,新的深度卷积生成对抗网络可以很容易记住训练样本;攻击者通过从分布中重复抽样,很有可能恢复训练样本;另外,传统数据脱敏方法往往需要对原始数据进行过度清洗,导致数据可用性低而难以再适用于下游的深度学习任务;
本发明在训练新的深度卷积生成对抗网络的判别器的过程中添加噪声扰动来实现差分隐私保护,而不是直接在最终参数上添加噪声,不会降低数据的实用性;另一方面,在训练过程中,只有判别器会直接接触到真实数据,且相较于生成器,判别器拥有的通常参数较少,特征结构较简单,易于估计隐私损失;
步骤5:训练脱敏气象数据生成模型MDCGAN,具体的,包括以下步骤:
步骤5.1:使用结合差分隐私的Adam优化算法训练脱敏气象数据生成模型MDCGAN,具体的,采用差分隐私梯度下降方法通过梯度裁剪方式限制每个样本的敏感度,然后对样本添加高斯噪声,以满足差分隐私条件的数学约束;
本发明使用结合差分隐私的Adam优化算法训练MDCGAN模型;Adam是一种性能优秀的梯度下降算法,本发明将其与差分隐私结合,使用一个差异私有变量(DP-Adam)代替典型训练过程,从而限制特定训练实例在最终训练模型中的贡献;在神经网络反向传播的Adam梯度下降更新参数过程中加入高斯噪声实现差分隐私,从而达到在神将网络优化算法的优化过程中进行隐私保护的目的;
梯度裁剪是对每个样本对模型参数的影响进行限制,以提供差分隐私保证;对每个梯度向量的L2范数进行裁剪,即设定裁剪阈值C0,梯度向量g被g/max(1,||g||2/C0)替代;梯度裁剪阈值过大,将导致数据敏感度过大,噪声添加过多;而梯度裁剪阈值过小将无法保留有效的梯度学习特征,影响模型的收敛;
噪声添加是将随机噪声添加到裁剪的梯度中,保证了攻击者不能判断出特定数据点是否包含在训练数据集中;本发明中添加的是高斯噪声;梯度裁剪与加噪声的过程即为通过扰动梯度下降过程不断消耗整体隐私预算,隐私预算一旦消耗完毕,训练即终止;
生成器和判别器使用Adam优化算法,学习率设为0.002,batch_size为128;网络结构设置如表2所示:
表2 MDCGAN参数设置
步骤5.2:更新判别器;
步骤5.3:更新生成器;
在判别器的每次更新中,先从原始数据集中抽样并计算梯度,然后裁剪梯度并添加噪声,确保敏感度以阈值C0为界并实现差分隐私;更新判别器参数后,从噪声分布Pz中抽样并更新生成器参数;同时,统计计算训练过程中的隐私损失;算法以对抗学习的形式循环迭代,直到累积隐私损失超过总隐私预算或迭代结束时算法终止;
隐私损失与迭代次数正相关,定义如下,
假设存在一个随机函数M,D和D'是任意两个相邻的数据集。则M的隐私损失定义为如下随机变量,
其中概率Pr由随机函数M确定;
训练开始时,判别器的判别结果D(x)≈1、D(G(z))≈0;生成器为了和判别器进行对抗,所以训练方向是增大D(G(z))、减小D(x),生成器目标函数是最小化log(1-D(G(z))),它的目标函数和真实样本是无关的;判别器则需要朝着最大化D(x)、最小化D(G(z))方向训练去和生成器对抗,即判别器目标函数是最大化log(D(x))+log(1-D(G(z)));随着GAN训练的进行,最终D(x)和D(G(z))的值在0.5左右浮动,判别器无法判断输入数据的真假,生成器和判别器二者达到一个纳什均衡(Nash Equilibrium)状态,此时模型达到最优;训练的目标函数如下,
其中x表示真实数据样本,z表示随机噪声样本,G(z)表示生成器生成的假样本,D(x)和D(G(z))表示判别器判别结果,E表示求期望。
MDCGAN模型在训练过程中生成器和判别器的损失函数的变化过程如图3所示;
在MDCGAN的训练过程中,唯一需要直接访问真实数据的部分是判别器的训练。为了实现差别隐私,本发明私有化判别器的训练,在判别器每次训练中先从原始数据中抽样并计算梯度,然后将噪声添加到随机梯度下降过程中并裁剪梯度,判别器参数更新后,训练生成器,从噪声Pz中抽样更新生成器参数,一直迭代此过程,直至训练完成;
步骤6:利用步骤5所述的脱敏气象数据生成模型MDCGAN生成脱敏的气象数据。
基于本发明所述的脱敏气象数据生成模型MDCGAN生成的脱敏气象数据和真实数据在变量概率密度分布上具有相同特征,如图4所示:图4比较了二者的WETBULBTEMPF、DRYBULBTEMPF、WindDirection、DewPointTempF、WindSpeed、WindDirection等气象变量的概率密度分布,其中虚线为生成数据,实线为真实数据;从图中可以看出二者概率密度分布大致相似,但部分概率密度值有偏差,这是由于生成数据的概率密度大都会偏向正态分布,实验中使用的数据集概率密度却不呈规则正态分布。
衡量变量相关性一般都是计算变量之间的皮尔逊相关系数(Pearsoncorrelation coefficient),Heatmap可以显示数据中不同变量之间的相关性;在此气象数据集中DRYBULBTEMPF、RelativeHumidity、WindSpeed、WETBULBTEMPF、DewPointTempF、VISIBILITY、StationPressure等气象变量,生成数据的变量相关性与真实数据的变量相关性是十分相似的,说明本发明所述的脱敏气象数据生成模型MDCGAN具有模拟源数据中变量间相关性的能力;生成数据与真实数据的Heatmap如图5所示,左图为真实数据,右图为生成数据。
真实数据与生成数据的统计特征有稍微差别,毕竟不是相同的数据,即使把同一个数据集拆分成两个部分进行比较也会存在差别;比如将真实数据中DRYBULBTEMPF分为两部分,前一部分的均值为54.66,后一部分均值为56.82;真实数据与生成数据气候变量的平均值和标准差对比如表3所示,二者各个变量平均值,标准差十分相近,说明生成数据可以替代真实数据进行数据特征分析。
表3 真实数据与生成数据统计特征对比
为了评估MDCGAN模型在差分隐私保护下生成气象数据的质量,本发明采用Inception Scores(IS)和JS散度(Jensen-Shannon Divergence)两个参数进行了验证。
本发明使用Inception Scores来评估气象数据的生成质量,以真实数据评分为标准,对比本发明所述的脱敏气象数据生成模型MDCGAN生成数据的能力;评价一个生成模型,需要考验两个方面性能:生成数据的质量和生成数据的多样性;假设x表示从生成器生成的数据,y表示类别标签,p(y|x)表示生成数据x属标签y的条件概率,p(y)表示y的边缘分布;对于一个高质量的数据,它属于某一类的概率应该非常大,而属于其它类的概率应该很小,也就是说,p(y|x)的熵应该很小;如果一个模型能生成足够多样的数据,那么它生成的数据在各个类别中的分布应该是平均的,也就是说,生成的数据在所有类别概率边缘分布p(y)的熵应该很大;综合上面两方面,Inception Scores的计算公式为:
IS(G)=exp[Εx~G(z)DKL(p(y|x)||p(y))] (7)
其中DKL表示对p(y|x)和p(y)求KL散度(Kullback-Leibler Divergence);KL散度又称相对熵(relative entropy),是描述两个概率分布P和Q差异的一种方法;KL散度的离散形式公式为,
Inception Scores越大,说明p(y|x)和p(y)这两项分布的KL散度越大,生成数据的质量和多样性越好。
Jensen-Shannon散度度量了两个概率分布的相似度;它是基于KL散度的变体,解决了KL散度非对称的问题;JS散度是对称的,其取值是0到1之间;JS散度的定义如下,
真实数据与生成数据的可靠性比较如表4所示,在隐私预算ε为10的前提下,分别计算了两类数据的Inception Scores和JS散度,差分隐私保护下GAN的生成数据由于噪声的干扰,一般情况下Inception Scores会较低,JS散度会稍高,但本发明所述的脱敏气象数据生成模型MDCGAN得分仍在可接受的范围内。
表4 真实数据与生成数据的可靠性比较
为了说明本发明所述的脱敏气象数据生成模型MDCGAN生成气象数据的有效性,本发明使用生成数据和真实数据进行了一系列对比分析;分别使用两种数据训练时间序列预测模型,比较两个模型的预测结果。
真实数据中每一天的温度都是随时间变化上升后下降,中午气温高,凌晨和晚上气温低,气温变化折线图呈凸状;在所有气象变量中,气温的变化趋势是最明显的,所以挑选气温比较真实数据与生成数据最为直观;在生成数据中随机选出几天气温变化的折线图和真实数据进行对比,如图6所示,虚线为生成数据中DRYBULBTEMPF一天中的变化,实线为真实数据的变化;生成数据与真实数据的变化趋势相符合,气温最高点都在中午12点左右。
本发明使用生成数据和真实数据各训练一个时间序列预测模型,并使用同样测试集对两个模型进行测试,比较二者训练出模型的效果;本发明利用长短期记忆神经网络(Long short-term memory,LSTM)进行预测对比实验;LSTM是一种特殊的循环神经网络(Recurrent Neural Network,RNN),适合于处理和预测时间序列中间隔和延迟相对较长的重要事件,能够学习信息之间长期的依赖关系;LSTM在自然语言处理、视频理解与目标检测、深度学习、强化学习等领域有着十分广泛的应用。
本发明从生成数据中取2000个小时数据作为训练集,并在真实数据中取200个小时数据作为测试集,训练结果如图7所示,其中虚线为生成数据训练出的模型对于200个小时真实数据的预测值,实线为真实数据,预测值与真实值均方误差(MSE)均是0.002,使用生成数据训练的时间序列预测模型是可靠的,完全可以达到和使用真实数据训练出预测模型相当的准确度。
综上所述,本发明在基于生成对抗网络生成气象数据的过程中引入了差分隐私保护(Differential Privacy Protection)的设计,通过训练一个差分私有生成器来解决生成数据的安全性问题。本发明从差分隐私的角度为训练数据提供了可靠的隐私控制,可以在不侵犯训练数据隐私的情况下生成无限多个安全的生成数据,使得生成的气象数据可以同时满足数据增强和数据脱敏的要求。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (2)
1.一种脱敏气象数据的生成方法,其特征在于,包括以下步骤:
步骤1:获取真实气象数据集;
步骤2:对真实气象数据集进行预处理,使其满足深度学习模型训练的要求;
步骤2.1:删除真实气象数据集中列值为空以及列值完全相同的列;
步骤2.2:将保留的真实气象数据集中的数值类型转换为float数值类型;
步骤2.3:使用FM-15读数对保留的真实气象数据集进行过滤,获取测量间隔为一小时的数据集;
步骤2.4:将保留的真实气象数据集中的数值规范在NOAA Local ClimatologicalData Documentation定义的参数之内,否则将此数值置为空,然后和缺失值一同进行填充;缺失值和置为空的数值的填充方法为:使用最近的有效观测值进行填充;所述的最近的有效观测值指最近记录的在NOAA Local Climatological Data Documentation定义的参数之内的同类观测值;最终得到预处理后的真实气象数据集;
步骤3:对深度卷积生成对抗网络进行改进,构建新的深度卷积生成对抗网络,具体的:
步骤3.1:去掉深度卷积生成对抗网络的池化层,生成器中使用反卷积进行上采样,判别器中使用跨距卷积代替池化层;
步骤3.2:生成器和判别器中增加批量归一化操作;
步骤3.3:去掉深度卷积生成对抗网络的全连接层,使用全局池化代替;
步骤3.4:生成器中输出层使用Tanh激活函数,隐藏层使用ReLU激活函数;
步骤3.5:判别器中输出层使用Sigmoid激活函数,隐藏层使用LeakyReLU激活函数;
步骤4:构建脱敏气象数据生成模型MDCGAN,具体的:训练步骤3中所述的新的深度卷积生成对抗网络的判别器,并在训练新的深度卷积生成对抗网络的判别器过程中添加噪声扰动;
步骤5:训练脱敏气象数据生成模型MDCGAN,具体的:
步骤5.1:使用结合差分隐私的Adam优化算法训练脱敏气象数据生成模型MDCGAN,具体的,采用差分隐私梯度下降方法通过梯度裁剪方式限制每个样本的敏感度,然后对样本添加高斯噪声;
步骤5.2:更新判别器;
步骤5.3:更新生成器;
步骤6:利用步骤5所述的脱敏气象数据生成模型MDCGAN生成脱敏的气象数据。
2.根据权利要求1所述的一种脱敏气象数据的生成方法,其特征在于:步骤1所述的获取真实气象数据集的方法为:使用来自美国国家海洋和大气管理局公开的肯尼迪机场自2010年1月1日至2021年1月1日的气象数据集作为真实气象数据集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110770127.1A CN113536373B (zh) | 2021-07-07 | 2021-07-07 | 一种脱敏气象数据的生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110770127.1A CN113536373B (zh) | 2021-07-07 | 2021-07-07 | 一种脱敏气象数据的生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113536373A CN113536373A (zh) | 2021-10-22 |
CN113536373B true CN113536373B (zh) | 2023-04-18 |
Family
ID=78127044
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110770127.1A Active CN113536373B (zh) | 2021-07-07 | 2021-07-07 | 一种脱敏气象数据的生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113536373B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114118407B (zh) * | 2021-10-29 | 2023-10-24 | 华北电力大学 | 一种面向深度学习的差分隐私可用性度量方法 |
CN114912142A (zh) * | 2022-04-22 | 2022-08-16 | 绿盟科技集团股份有限公司 | 一种数据脱敏方法、装置、电子设备及存储介质 |
CN115659408B (zh) * | 2022-12-05 | 2023-04-07 | 国网湖北省电力有限公司信息通信公司 | 一种电力系统敏感数据共享方法、系统及存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113051617A (zh) * | 2021-04-11 | 2021-06-29 | 海南大学 | 一种基于改进生成对抗网络的隐私保护方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10819724B2 (en) * | 2017-04-03 | 2020-10-27 | Royal Bank Of Canada | Systems and methods for cyberbot network detection |
US10878576B2 (en) * | 2018-02-14 | 2020-12-29 | Elekta, Inc. | Atlas-based segmentation using deep-learning |
US20200364624A1 (en) * | 2019-05-16 | 2020-11-19 | Retrace Labs | Privacy Preserving Artificial Intelligence System For Dental Data From Disparate Sources |
CN110852970A (zh) * | 2019-11-08 | 2020-02-28 | 南京工程学院 | 基于深度卷积生成对抗网络的水下机器人图像增强方法 |
CN111563275B (zh) * | 2020-07-14 | 2020-10-20 | 中国人民解放军国防科技大学 | 一种基于生成对抗网络的数据脱敏方法 |
CN112329052B (zh) * | 2020-10-26 | 2024-08-06 | 哈尔滨工业大学(深圳) | 一种模型隐私保护方法及装置 |
-
2021
- 2021-07-07 CN CN202110770127.1A patent/CN113536373B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113051617A (zh) * | 2021-04-11 | 2021-06-29 | 海南大学 | 一种基于改进生成对抗网络的隐私保护方法 |
Non-Patent Citations (2)
Title |
---|
Chugui Xu 等.GANobfuscator: Mitigating Information Leakage Under GAN via Differential Privacy.《IEEE Transactions on Information Forensics and Security 》.2019,第14卷(第9期),第2358 - 2371页. * |
赵智城.深度学习下的差分隐私保护算法研究.《中国优秀硕士学位论文全文数据库 信息科技辑》.2021,(第5期),第I138-115页. * |
Also Published As
Publication number | Publication date |
---|---|
CN113536373A (zh) | 2021-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113536373B (zh) | 一种脱敏气象数据的生成方法 | |
CN111815037B (zh) | 一种基于注意力机制的可解释性短临极端降雨预测方法 | |
Kannan et al. | Prediction of daily rainfall state in a river basin using statistical downscaling from GCM output | |
Zhang et al. | Prediction of tropical cyclone genesis from mesoscale convective systems using machine learning | |
CN111340292B (zh) | 一种基于聚类的集成神经网络pm2.5预测方法 | |
CN111401599B (zh) | 一种基于相似性搜索和lstm神经网络的水位预测方法 | |
CN105654210A (zh) | 一种利用海洋遥感多环境要素的集成学习渔场预报方法 | |
Lee et al. | Applying machine learning methods to detect convection using Geostationary Operational Environmental Satellite-16 (GOES-16) advanced baseline imager (ABI) data | |
Geetha et al. | Time-series modelling and forecasting: Modelling of rainfall prediction using ARIMA model | |
Jiang et al. | Principal component analysis for extremes and application to US precipitation | |
Jing et al. | Tropical cyclone intensity evolution modeled as a dependent hidden Markov process | |
Nakamura et al. | HITS: Hurricane intensity and track simulator with North Atlantic Ocean applications for risk assessment | |
CN114065996A (zh) | 基于变分自编码学习的交通流预测方法 | |
CN113128769A (zh) | 基于深度学习的智能航班延误预测方法 | |
CN114611608A (zh) | 基于深度学习模型的海表面高度数值预报偏差订正方法 | |
CN116108984A (zh) | 基于流量-poi因果关系推理的城市流量预测方法 | |
Hudnurkar et al. | Binary classification of rainfall time-series using machine learning algorithms. | |
Sobash et al. | Diagnosing storm mode with deep learning in convection-allowing models | |
CN114882373A (zh) | 基于深度神经网络的多特征融合沙尘暴预测方法 | |
Bose et al. | Simulation of atlantic hurricane tracks and features: A coupled machine learning approach | |
Lee et al. | Applying machine learning methods to detect convection using GOES-16 ABI data | |
CN113052353B (zh) | 空气质量预测与预测模型训练方法、装置及存储介质 | |
Bliefernicht et al. | Atmospheric circulation patterns that trigger heavy rainfall in West Africa | |
CN115345245A (zh) | 一种基于随机森林和迁移学习的热带气旋快速加强预报方法 | |
Nakamura et al. | Early season hurricane risk assessment: climate-conditioned HITS simulation of north atlantic tropical storm tracks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |