CN114611134A - 基于负数据库和深度学习的多元时序数据隐私保护方法 - Google Patents

基于负数据库和深度学习的多元时序数据隐私保护方法 Download PDF

Info

Publication number
CN114611134A
CN114611134A CN202210159775.8A CN202210159775A CN114611134A CN 114611134 A CN114611134 A CN 114611134A CN 202210159775 A CN202210159775 A CN 202210159775A CN 114611134 A CN114611134 A CN 114611134A
Authority
CN
China
Prior art keywords
negative database
multivariate
hidden
time sequence
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210159775.8A
Other languages
English (en)
Inventor
赵冬冬
黄雅琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University of Technology WUT
Original Assignee
Wuhan University of Technology WUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University of Technology WUT filed Critical Wuhan University of Technology WUT
Priority to CN202210159775.8A priority Critical patent/CN114611134A/zh
Publication of CN114611134A publication Critical patent/CN114611134A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Bioethics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于负数据库和深度学习的多元时序数据隐私保护方法,首先对原始数据集中的数据进行预处理,将原始数据转换成定长的二进制串,通过贝叶斯定理和概率统计方法分析基于负数据库的激活函数估算问题,之后采用细粒度更高的负数据库生成算法QK‑hidden对其进行隐私保护操作。再根据多元时序数据的长短期周期性特点,选择由卷积层与循环神经网络组合的深度学习模型,捕获时间序列短期和长期的依赖关系,同时结合自回归模型作为线性层对其建模,训练得到具有隐私保护效果的模型,并对其进行预测。本发明采用负数据库对原始多元时序数据进行隐私保护,通过神经网络模型进行预测,在满足一定的数据安全性的前提下,实现良好的预测性能。

Description

基于负数据库和深度学习的多元时序数据隐私保护方法
技术领域
本发明属于信息安全技术领域,涉及一种多元时序数据隐私保护方法,具体涉及一种基于负数据库和深度学习的多元时序数据隐私保护方法。
背景技术
在大数据时代,对海量的数据进行挖掘和分析,提取隐含其中潜在的有价值的信息,极大地提高了社会生产力、方便了人们的生活。时序数据是一种按照时间发生先后顺序排列而成的序列数据。通过对时序数据的分析和预测,可以为决策者提供前瞻性的意见和指导性的策略,以应对未来可能发生的变化;同时也可以发现蕴含在这些时序数据之中的潜在规律,从而可以更好地认识和理解各种科学理论和社会现象。然而,在现实应用中,数据挖掘算法所使用的数据大多都是明文状态,存在较大的隐私泄露风险。因此,在人们对时序数据挖掘的研究取得一定成果的同时,其隐私安全问题也越来越受到广泛的关注。
目前应用于隐私保护数据挖掘的数据安全技术,已被证明存在一些问题。基于数据扰动的方法较典型的是差分隐私技术,它是通过向敏感数据添加数值类型或者非数值类型的噪音,查询请求公开可见信息的结果,并不会泄露个体的隐私信息从而实现保护隐私的目的。这类算法虽然效率较高且实现简单,但数据扰动给原始数据添加噪音会导致数据的可用性降低。基于数据加密的方法目前比较主流的是同态加密,它的特点是可以直接对密文进行计算,并且可以得到与直接在明文状态下进行相同计算同样的结果。但是基于同态加密的隐私保护数据挖掘算法也存在实现复杂,计算量较大且效率较低的不足。
发明内容
为了克服上述背景技术的缺陷,本发明提供了一种基于负数据库和深度学习的多元时序数据隐私保护方法,采用一种介于扰乱与加密方案之间的方法,既能满足隐私保护的要求,同时保证良好的性能。
本发明所采用的技术方案是:一种基于负数据库和深度学习的多元时序数据隐私保护方法,包括以下步骤:
步骤1:将多元时序数据Y={y1 y2 … yT}进行预处理,转化成二进制串
Figure BDA0003514008090000011
其中,
Figure BDA0003514008090000012
n是变量维度,
Figure BDA0003514008090000013
是实数集;
步骤2:选取负数据库生成算法QK-hidden,针对步骤1转换的数据
Figure BDA0003514008090000021
生成相应的负数据库NDB={NDB1 NDB2 … NDBT};
步骤3:从步骤2中提取负数据库的梗概S={S1 S2 … ST},其中Si是NDBi的梗概;
步骤4:基于梗概S,完成基于负数据库的激活函数估算;
步骤5:将S输入多元时序数据预测网络,得到非线性部分神经网络和线性部分自回归模型集成的预测结果,选取满足预设条件的S作为最终的隐私保护数据;
所述多元时序数据预测网络,包括卷积神经网络CNN的卷积层与控循环单元网络GRU结合的深度学习模型,将卷积层提取得到的特征按照时间顺序输入到控循环单元网络GRU,捕获时间序列短期和长期的依赖关系,得到下一个时刻的状态向量;同时结合自回归模型AR作为所述多元时序数据预测网络线性层,搭建多元时序数据预测网络;通过所述多元时序数据预测网络,最终得到非线性部分和线性部分集成的预测结果。
本发明的有益效果在于:
(1)根据多元时序数据的长短期周期性特点,选择由卷积神经网络(Convolutional Neural Network,CNN)的一个卷积层(Convolutional Layer)与控循环单元网络GRU结合的深度学习模型,捕获时间序列短期和长期的依赖关系,同时结合自回归模型(Autoregressive)作为线性层对其建模;
(2)本发明采用贝叶斯定理和概率统计方法,结合深度学习模型的激活函数,分析基于负数据库(Negative Databases,NDB)的激活函数估算问题,采用细粒度更高的负数据库生成算法QK-hidden对其进行隐私保护操作;
(3)本发明在满足数据隐私安全的前提下,仍可以保证良好的数据可用性。
附图说明
图1为本发明实施例的流程框图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
请见图1,本发明首先对原始多元时序数据集中的数据进行数据预处理,转化成与最大值相同位数的定长的二进制串;根据多元时序数据的长短期周期性特点,选择由卷积神经网络(CNN)的卷积层与控循环单元网络GRU结合的深度学习模型,捕获时间序列短期和长期的依赖关系,同时结合自回归模型作为线性层对其建模;针对二进制串,采用贝叶斯定理和概率统计方法,分析基于负数据库(NDB)的激活函数估算问题,采用细粒度更高的负数据库生成算法QK-hidden对其进行隐私保护操作;最后,进行训练,得到具有隐私保护效果的模型,并对其进行预测,输出预测结果。
下面结合实例对本发明进行详细的描述,本发明提供的一种基于负数据库和深度学习的多元时序数据隐私保护方法,包括以下步骤:
步骤1:将多元时序数据Y={y1 y2 … yT}进行预处理,转化成二进制串
Figure BDA0003514008090000031
其中,
Figure BDA0003514008090000032
n是变量维度,
Figure BDA0003514008090000033
是实数集;
本实施例中,将多元时序数据进行预处理,转化成与最大值相同位数的定长的二进制串。
步骤2:选取负数据库生成算法QK-hidden,针对步骤1转换的数据
Figure BDA0003514008090000034
生成相应的负数据库NDB={NDB1 NDB2 … NDBT};
本实施例中,负数据库生成算法QK-hidden,存储的是由n位二进制串组成的数据集的补集中内容的压缩形式;对于m条最大属性位数为L的隐藏串s,QK-hidden算法在对负数据库中生成不同类型记录的概率p1,p2,…,pK进行控制的同时,引入一组取反参数q1,q2,…,qL对每一个属性位的取反概率进行控制;其中,参数K是负数据库中每一条记录的确定位个数,r是控制负数据库大小的参数,N=m×r,N是负数据库中总条目数;负数据库以概率参数pi生成第i种类型的记录,生成第i种类型的记录的方法是按照取反参数选择i个取反位,然后随机选择K-i个取正位,最后加入到负数据库中。
QK-hidden负数据库生成算法的伪代码如下:
Figure BDA0003514008090000035
Figure BDA0003514008090000041
步骤3:从步骤2中提取负数据库的梗概S={S1S2…ST},其中Si是NDBi的梗概;
步骤4:将S输入多元时序数据预测网络,完成基于负数据库的激活函数估算,得到非线性部分神经网络和线性部分自回归模型集成的预测结果,选取满足预设条件的S作为最终的隐私保护数据;
所述多元时序数据预测网络,包括卷积神经网络CNN(Convolutional NeuralNetwork)的卷积层(Convolutional Layer)与控循环单元网络GRU结合的深度学习模型,将卷积层提取得到的特征按照时间顺序输入到控循环单元网络GRU,捕获时间序列短期和长期的依赖关系,得到下一个时刻的状态向量;同时结合自回归模型AR(Autoregressive)作为所述多元时序数据预测网络线性层,搭建多元时序数据预测网络;通过所述多元时序数据预测网络,最终得到非线性部分和线性部分集成的预测结果。
本实施例中设置一个卷积层,它的目的是提取时间序列的短期特征,捕捉多元变量之间的短期模式也就是时间维度的局部依赖。本实施例的卷积层由若干滤波器组成,宽度为w,高度为n,高度设置为与变量个数相同;第k个滤波器扫过输入矩阵Y,并产生:
hk=RELU(WK*Y+bk) (1)
其中,*表示卷积操作,输出值hk是一个向量,k是第k个卷积核,RELU即RELU函数,RELU(x)=max(0,x);WK是权重矩阵,bk是偏置。
随后将提取得到的特征,按照时间顺序输入到循环神经网络中,得到下一个时刻的状态向量。由于循环神经网络会出现梯度消失和梯度爆炸现象,无法掌握长时间跨度的非线性关系,为解决长期依赖问题,大量优化理论得到引入并衍生出许多改进算法,包括神经历史压缩器(Neural History Compressor)、长短期记忆网络(Long Short-Term Memorynetworks,LSTM)、门控循环单元网络(GatedRecurrent Unit networks,GRU)、独立循环神经网络(Independent RNN)等,它们都是普通循环神经网络的变体,最常见的是长短期记忆网络LSTM和门控循环单元网络GRU。GRU和LSTM的性能在很多需要“长期记忆”的任务上不分伯仲。但LSTM也因为引入了很多选择性机制,导致参数变多,训练难度也加大了很多。因此,本发明选择了效果与LSTM相当,但参数更少更容易收敛的GRU网络结构,捕获时间序列数据的时间依赖性以及长期模式。
本实施例的控循环单元网络GRU,使用RELU函数作为隐藏更新激活功能;
在时刻t的循环单元的隐藏状态为:
rt=σ(ytWxr+ht-1Whr+br) (2)
ut=σ(ytWxu+ht-1Whu+bu) (3)
ct=RELU(ytWxc+rt⊙(ht-1Whc)+bc) (4)
ht=(1-ut)⊙ht-1+ut⊙ct (5)
其中,⊙是元素的乘积,σ是sigmoid函数,yt是在时刻t的输入,rt是GRU中组件重置门(resetgate)在时刻t的隐藏状态,ut是GRU中组件更新门(update gate)在时刻t的隐藏状态,ct是GRU中的候选记忆单元在时刻t的隐藏状态;Wxr、Whr、Wxu、Whu、Wxc、Whc分别为重置门、更新门、候选记忆单元中训练的权重矩阵,br、bu、bc分别为重置门、更新门、候选记忆单元中训练的偏置;ht-1是上一个时刻t-1传输下来的状态,ht是当前时刻t的输出状态。
由于卷积和递归成分的非线性性质,现在这个神经网络模型的一个主要缺点是输出的规模对输入的规模不敏感。因此,本实施例采用经典的自回归模型(AR)作为线性分量。
本实施例的自回归模型AR为:
Figure BDA0003514008090000061
其中,i=1,2,3,...,n,
Figure BDA0003514008090000062
为AR模型的系数,偏置
Figure BDA0003514008090000063
qar表示多步预测单步的个数;yt-k,i表示用前k个时刻的状态预测时刻t的输入值,
Figure BDA0003514008090000064
表示用前k个时刻的状态预测时刻t的预测结果;
AR分量的预测结果记为:
Figure BDA0003514008090000065
所述多元时序数据预测网络的最终预测结果非线性部分和线性部分的集成;
Figure BDA0003514008090000066
其中,
Figure BDA0003514008090000067
为控循环单元网络GRU(非线性部分)的预测结果,
Figure BDA0003514008090000068
为自回归模型AR(线性部分)的预测结果。
本实施例中,基于梗概S,完成基于负数据库的激活函数估算,并训练多元时序数据预测网络,直到多元时序数据预测网络收敛,得到训练好的多元时序数据预测网络;
对深度学习模型的sigmoid函数和RELU函数,基于负数据库进行激活函数估算;其中:
Figure BDA0003514008090000069
Figure BDA00035140080900000610
其中,z表示神经元中的线性计算结果,被表示为
Figure BDA00035140080900000611
[x1 … xm]表示原始的隐私数据,m表示输入x属性的个数,[w1 … wm]T为权重矩阵;
隐藏串s的负数据库为NDBs,在记录中属性的第i位与s对应位不同的概率Pdiff[i]是:
Figure BDA00035140080900000612
上式中K表示有K种类型的负数据库记录,其中,第i中类型的负数据库记录有i个确定位,pj表示生成第j种类型的负数据库记录的概率,它有j个确定位与隐藏串对应位置相反,剩余的K-j个确定位与隐藏串相同,qi表示选择属性的第i位与隐藏串在相应位置不同的概率,L代表属性位长度;
隐藏串s的第i个属性的第j位为0的概率
Figure BDA0003514008090000071
为:
Figure BDA0003514008090000072
其中,Psame[j]是属性的第j位与s对应位相同的概率,n0是NDBs中第i个属性的第j位为0的总记录数,n1是NDBs中第i个属性的第j位为1的总记录数;如果s=Sk,那么n0=Sk[i×L+j][0],n1=Sk[i×L+j][1],
Figure BDA0003514008090000073
隐藏串s的第i个属性的第j位为1的概率
Figure BDA0003514008090000074
为:
Figure BDA0003514008090000075
隐藏串s的第i个属性值为d的概率P(si=d)为:
Figure BDA0003514008090000076
其中,0≤d≤2L-1,
Figure BDA0003514008090000077
是si的二进制表示,d的二进制表示dbin=b1 ... bL
因此,经过负数据库隐私保护处理的z的估算值为:
Figure BDA0003514008090000078
对于激活函数sigmoid函数和RELU函数的估算公式为:
Figure BDA0003514008090000079
Figure BDA00035140080900000710
将公式(15)分别代入公式(16)(17)中,则完成了基于负数据库进行激活函数估算。
本实施例训练多元时序数据预测网络,其优化目标为:
Figure BDA00035140080900000711
其中,ΩTrain是用于训练的时间序列的集合,||·||F是Frobenius范数,h是当前时刻的理想界限,预测任务中h值是超参数,由环境设置的需求决定;
本实施例要对经过隐私保护处理后的多元时序数据进行预测任务。给定一组已知的时序数据Y={y1,y2,…,yT},以滚动(滑动)预测的形式,预测未来的时间序列信号;将时间戳T处的输入矩阵表示为
Figure BDA0003514008090000081
开始训练多元时序数据预测网络时,首先对权值进行随机初始化;目标函数评估多元时序数据预测网络并返回一个数值,表明该多元时序数据预测网络的有用程度,同时每次迭代中修改多元时序数据预测网络的权重,从而改变目标函数返回的值;
采用随机梯度下降法,对多元时序数据预测网络进行训练,计算误差输出时按从输入到输出的方向进行,而调整权值和阈值则从输出到输入的方向进行;在正向传播时,输入信号通过隐含层作用于输出节点,经过非线性变换,产生输出信号,若实际输出与期望输出不相符,则转入误差的反向传播过程;误差反传是将输出误差通过隐含层向输入层逐层反传,并将误差分摊给各层所有单元,以从各层获得的误差信号作为调整各单元权值的依据;通过调整输入节点与隐层节点的联接强度和隐层节点与输出节点的联接强度以及阈值,使误差沿梯度方向下降,经过反复学习和迭代,在学习到一定阶段后,损失变化曲线趋于平稳,确定与最小误差相对应的网络参数,包括权值和阈值,则停止训练。
本实施例选择两个评估指标来评估该模型的预测性能,相对平方根误差(RootRelative Squared Error,RSE)和经验相关系数(Empirical Correlation Coefficient,CORR)。其中,RSE越小,表示模型预测结果越好;CORR越大,表示模型预测结果越好
Figure BDA0003514008090000082
Figure BDA0003514008090000083
本发明已在公开的UCI数据库(加州大学欧文分校提出的用于机器学习的数据集)electricity和traffic上验证过其可行性,实验结果表明,与未进行隐私保护处理的模型相比,预测准确率略有下降。因此本发明可以通过调节参数,实现不同的安全性和预测准确率,一定程度上避免隐私泄漏问题带来的损失。
以上为简单的基于负数据库和深度学习的多元时序数据隐私保护方案分析,本发明适用于时序数据隐私保护,并且能够保证良好的数据可用性,进行时序数据预测。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

Claims (8)

1.一种基于负数据库和深度学习的多元时序数据隐私保护方法,其特征在于,包括以下步骤:
步骤1:将多元时序数据Y={y1 y2…yT}进行预处理,转化成二进制串
Figure FDA0003514008080000011
其中,
Figure FDA0003514008080000012
n是变量维度,
Figure FDA0003514008080000013
是实数集;
步骤2:选取负数据库生成算法QK-hidden,针对步骤1转换的数据
Figure FDA0003514008080000014
生成相应的负数据库NDB={NDB1 NDB2…NDBT};
步骤3:从步骤2中提取负数据库的梗概S={S1 S2…ST},其中Si是NDBi的梗概;
步骤4:将S输入多元时序数据预测网络,完成基于负数据库的激活函数估算,得到非线性部分神经网络和线性部分自回归模型集成的预测结果,选取满足预设条件的S作为最终的隐私保护数据;
所述多元时序数据预测网络,包括卷积神经网络CNN的卷积层与控循环单元网络GRU结合的深度学习模型,将卷积层提取得到的特征按照时间顺序输入到控循环单元网络GRU,捕获时间序列短期和长期的依赖关系,得到下一个时刻的状态向量;同时结合自回归模型AR作为所述多元时序数据预测网络线性层,搭建多元时序数据预测网络;通过所述多元时序数据预测网络,最终得到非线性部分和线性部分集成的预测结果。
2.根据权利要求1所述的基于负数据库和深度学习的多元时序数据隐私保护方法,其特征在于:步骤1中,将多元时序数据进行预处理,转化成与最大值相同位数的定长的二进制串。
3.根据权利要求1所述的基于负数据库和深度学习的多元时序数据隐私保护方法,其特征在于:步骤2中,所述负数据库生成算法QK-hidden,存储的是由n位二进制串组成的数据集的补集中内容的压缩形式;对于m条最大属性位数为L的隐藏串s,QK-hidden算法在对负数据库中生成不同类型记录的概率p1,p2,…,pK进行控制的同时,引入一组取反参数q1,q2,…,qL对每一个属性位的取反概率进行控制;其中,参数K是负数据库中每一条记录的确定位个数,r是控制负数据库大小的参数,N=m×r,N是负数据库中总条目数;负数据库以概率参数pi生成第i种类型的记录,生成第i种类型的记录的方法是按照取反参数选择i个取反位,然后随机选择K-i个取正位,最后加入到负数据库中。
4.根据权利要求1所述的基于负数据库和深度学习的多元时序数据隐私保护方法,其特征在于:步骤4中,所述卷积层由若干滤波器组成,宽度为w,高度为n,高度设置为与变量个数相同;第k个滤波器扫过输入矩阵Y,并产生:
hk=RELU(WK*Y+bk) (1)
其中,*表示卷积操作,输出值hk是一个向量,k是第k个卷积核,RELU即RELU函数,RELU(x)=max(0,x);WK是权重矩阵,bk是偏置。
5.根据权利要求1所述的基于负数据库和深度学习的多元时序数据隐私保护方法,其特征在于:步骤4中,所述控循环单元网络GRU,使用RELU函数作为隐藏更新激活功能;
在时刻t的循环单元的隐藏状态为:
rt=σ(ytWxr+ht-1Whr+br) (2)
ut=σ(ytWxu+ht-1Whu+bu) (3)
ct=RELU(ytWxc+rt⊙(ht-1Whc)+bc) (4)
ht=(1-ut)⊙ht-1+ut⊙ct (5)
其中,⊙是元素的乘积,σ是sigmoid函数,yt是在时刻t的输入,rt是GRU中组件重置门在时刻t的隐藏状态,ut是GRU中组件更新门在时刻t的隐藏状态,ct是GRU中的候选记忆单元在时刻t的隐藏状态;Wxr、Whr、Wxu、Whu、Wxc、Whc分别为重置门、更新门、候选记忆单元中训练的权重矩阵,br、bu、bc分别为重置门、更新门、候选记忆单元中训练的偏置;ht-1是上一个时刻t-1传输下来的状态,ht是当前时刻t的输出状态。
6.根据权利要求1所述的基于负数据库和深度学习的多元时序数据隐私保护方法,其特征在于,步骤4中,所述自回归模型AR为:
Figure FDA0003514008080000021
其中,i=1,2,3,...,n,
Figure FDA0003514008080000022
为AR模型的系数,偏置
Figure FDA0003514008080000023
qar表示多步预测单步的个数;yt-k,i表示用前k个时刻的状态预测时刻t的输入值,
Figure FDA0003514008080000024
表示用前k个时刻的状态预测时刻t的预测结果;
AR分量的预测结果记为:
Figure FDA0003514008080000025
所述多元时序数据预测网络的最终预测结果非线性部分和线性部分的集成;
Figure FDA0003514008080000031
其中,
Figure FDA0003514008080000032
为控循环单元网络GRU的预测结果,
Figure FDA0003514008080000033
为自回归模型AR的预测结果。
7.根据权利要求1-6任意一项所述的基于负数据库和深度学习的多元时序数据隐私保护方法,其特征在于:步骤4中,基于梗概S,完成基于负数据库的激活函数估算,并训练多元时序数据预测网络,直到所述多元时序数据预测网络收敛,获得训练好的多元时序数据预测网络;
对深度学习模型的sigmoid函数和RELU函数,基于负数据库进行激活函数估算;其中:
Figure FDA0003514008080000034
Figure FDA0003514008080000035
其中,z表示神经元中的线性计算结果,被表示为
Figure FDA0003514008080000036
[x1…xm]表示原始的隐私数据,m表示输入x属性的个数,[w1…wm]T为权重矩阵;
隐藏串s的负数据库为NDBs,在记录中属性的第i位与s对应位不同的概率Pdiff[i]是:
Figure FDA0003514008080000037
上式中K表示有K种类型的负数据库记录,其中,第i中类型的负数据库记录有i个确定位,pj表示生成第j种类型的负数据库记录的概率,它有j个确定位与隐藏串对应位置相反,剩余的K-j个确定位与隐藏串相同,qi表示选择属性的第i位与隐藏串在相应位置不同的概率,L代表属性位长度;
隐藏串s的第i个属性的第j位为0的概率
Figure FDA0003514008080000038
为:
Figure FDA0003514008080000039
其中,Psame[j]是属性的第j位与s对应位相同的概率,n0是NDBs中第i个属性的第j位为0的总记录数,n1是NDBs中第i个属性的第j位为1的总记录数;如果s=Sk,那么n0=Sk[i×L+j][0],n1=Sk[i×L+j][1],
Figure FDA0003514008080000041
隐藏串s的第i个属性的第j位为1的概率
Figure FDA0003514008080000042
为:
Figure FDA0003514008080000043
隐藏串s的第i个属性值为d的概率P(si=d)为:
Figure FDA0003514008080000044
其中,0≤d≤2L-1,
Figure FDA0003514008080000045
是si的二进制表示,d的二进制表示dbin=b1...bL
因此,经过负数据库隐私保护处理的z的估算值为:
Figure FDA0003514008080000046
对于激活函数sigmoid函数和RELU函数的估算公式为:
Figure FDA0003514008080000047
Figure FDA0003514008080000048
将公式(15)分别代入公式(16)(17)中,则完成了基于负数据库进行激活函数估算。
8.根据权利要求7所述的基于负数据库和深度学习的多元时序数据隐私保护方法,其特征在于,所述训练多元时序数据预测网络,其优化目标为:
Figure FDA0003514008080000049
其中,ΩTrain是用于训练的时间序列的集合,||·||F是Frobenius范数,h是当前时刻的理想界限,预测任务中h值是超参数,由环境设置的需求决定;
给定一组已知的时序数据Y={y1,y2,…,yT},
Figure FDA00035140080800000410
n是变量维度;以滚动预测的形式,预测未来的时间序列信号;将时间戳T处的输入矩阵表示为
Figure FDA00035140080800000411
开始训练多元时序数据预测网络时,首先对权值进行随机初始化;目标函数评估多元时序数据预测网络并返回一个数值,表明该多元时序数据预测网络的有用程度,同时每次迭代中修改多元时序数据预测网络的权重,从而改变目标函数返回的值;
采用随机梯度下降法,对多元时序数据预测网络进行训练,计算误差输出时按从输入到输出的方向进行,而调整权值和阈值则从输出到输入的方向进行;在正向传播时,输入信号通过隐含层作用于输出节点,经过非线性变换,产生输出信号,若实际输出与期望输出不相符,则转入误差的反向传播过程;误差反传是将输出误差通过隐含层向输入层逐层反传,并将误差分摊给各层所有单元,以从各层获得的误差信号作为调整各单元权值的依据;通过调整输入节点与隐层节点的联接强度和隐层节点与输出节点的联接强度以及阈值,使误差沿梯度方向下降,经过反复学习和迭代,在学习到一定阶段后,损失变化曲线趋于平稳,确定与最小误差相对应的网络参数,包括权值和阈值,则停止训练。
CN202210159775.8A 2022-02-22 2022-02-22 基于负数据库和深度学习的多元时序数据隐私保护方法 Pending CN114611134A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210159775.8A CN114611134A (zh) 2022-02-22 2022-02-22 基于负数据库和深度学习的多元时序数据隐私保护方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210159775.8A CN114611134A (zh) 2022-02-22 2022-02-22 基于负数据库和深度学习的多元时序数据隐私保护方法

Publications (1)

Publication Number Publication Date
CN114611134A true CN114611134A (zh) 2022-06-10

Family

ID=81859758

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210159775.8A Pending CN114611134A (zh) 2022-02-22 2022-02-22 基于负数据库和深度学习的多元时序数据隐私保护方法

Country Status (1)

Country Link
CN (1) CN114611134A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114913467A (zh) * 2022-06-14 2022-08-16 南京邮电大学 一种面向居家场景暴力行为监控的crnn组合网络视频隐私保护度评价方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114913467A (zh) * 2022-06-14 2022-08-16 南京邮电大学 一种面向居家场景暴力行为监控的crnn组合网络视频隐私保护度评价方法

Similar Documents

Publication Publication Date Title
Ma et al. A hybrid attention-based deep learning approach for wind power prediction
CN111860982B (zh) 一种基于vmd-fcm-gru的风电场短期风电功率预测方法
Qin et al. A dual-stage attention-based recurrent neural network for time series prediction
CN110048827B (zh) 一种基于深度学习卷积神经网络的类模板攻击方法
CN111079931A (zh) 一种基于图神经网络的状态空间概率性多时间序列预测方法
CN111310672A (zh) 基于时序多模型融合建模的视频情感识别方法、装置及介质
CN109919364A (zh) 基于自适应降噪和集成lstm的多变量时间序列预测方法
CN114595874B (zh) 一种基于动态神经网络的超短期电力负荷预测方法
CN113298131B (zh) 一种基于注意力机制的时序数据缺失值插补方法
CN111260124A (zh) 一种基于注意力机制深度学习的混沌时间序列预测方法
CN113255995A (zh) 一种空气污染预测方法
CN108876044A (zh) 一种基于知识增强神经网络的线上内容流行度预测方法
CN113128666A (zh) 基于Mo-S-LSTMs模型的时间序列多步预测方法
CN113935489A (zh) 基于量子神经网络的变分量子模型tfq-vqa及其两级优化方法
CN117406100A (zh) 锂离子电池剩余寿命预测方法和系统
Zhou et al. IF2CNN: Towards non-stationary time series feature extraction by integrating iterative filtering and convolutional neural networks
CN115766125A (zh) 一种基于lstm和生成对抗网络的网络流量预测方法
CN114611134A (zh) 基于负数据库和深度学习的多元时序数据隐私保护方法
Abraham et al. MARS: Still an alien planet in soft computing?
CN118036749A (zh) 基于拓扑感知的动态关系图和时序融合的时序知识图谱外推方法
CN118133931A (zh) 基于生成对抗网络的安全高效联邦学习系统及方法
Gu et al. Fuzzy time series forecasting based on information granule and neural network
CN117272040A (zh) 一种基于元学习框架的小样本时间序列预测方法
CN116632834A (zh) 一种基于SSA-BiGRU-Attention的短期电力负荷预测方法
CN114401135B (zh) 基于LSTM-Attention用户和实体行为分析技术的内部威胁检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination