CN114611134A

CN114611134A - 基于负数据库和深度学习的多元时序数据隐私保护方法

Info

Publication number: CN114611134A
Application number: CN202210159775.8A
Authority: CN
Inventors: 赵冬冬; 黄雅琪
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2022-02-22
Filing date: 2022-02-22
Publication date: 2022-06-10

Abstract

本发明公开了一种基于负数据库和深度学习的多元时序数据隐私保护方法，首先对原始数据集中的数据进行预处理，将原始数据转换成定长的二进制串，通过贝叶斯定理和概率统计方法分析基于负数据库的激活函数估算问题，之后采用细粒度更高的负数据库生成算法QK‑hidden对其进行隐私保护操作。再根据多元时序数据的长短期周期性特点，选择由卷积层与循环神经网络组合的深度学习模型，捕获时间序列短期和长期的依赖关系，同时结合自回归模型作为线性层对其建模，训练得到具有隐私保护效果的模型，并对其进行预测。本发明采用负数据库对原始多元时序数据进行隐私保护，通过神经网络模型进行预测，在满足一定的数据安全性的前提下，实现良好的预测性能。

Description

基于负数据库和深度学习的多元时序数据隐私保护方法

技术领域

本发明属于信息安全技术领域，涉及一种多元时序数据隐私保护方法，具体涉及一种基于负数据库和深度学习的多元时序数据隐私保护方法。

背景技术

在大数据时代，对海量的数据进行挖掘和分析，提取隐含其中潜在的有价值的信息，极大地提高了社会生产力、方便了人们的生活。时序数据是一种按照时间发生先后顺序排列而成的序列数据。通过对时序数据的分析和预测，可以为决策者提供前瞻性的意见和指导性的策略，以应对未来可能发生的变化；同时也可以发现蕴含在这些时序数据之中的潜在规律，从而可以更好地认识和理解各种科学理论和社会现象。然而，在现实应用中，数据挖掘算法所使用的数据大多都是明文状态，存在较大的隐私泄露风险。因此，在人们对时序数据挖掘的研究取得一定成果的同时，其隐私安全问题也越来越受到广泛的关注。

目前应用于隐私保护数据挖掘的数据安全技术，已被证明存在一些问题。基于数据扰动的方法较典型的是差分隐私技术，它是通过向敏感数据添加数值类型或者非数值类型的噪音，查询请求公开可见信息的结果，并不会泄露个体的隐私信息从而实现保护隐私的目的。这类算法虽然效率较高且实现简单，但数据扰动给原始数据添加噪音会导致数据的可用性降低。基于数据加密的方法目前比较主流的是同态加密，它的特点是可以直接对密文进行计算，并且可以得到与直接在明文状态下进行相同计算同样的结果。但是基于同态加密的隐私保护数据挖掘算法也存在实现复杂，计算量较大且效率较低的不足。

发明内容

为了克服上述背景技术的缺陷，本发明提供了一种基于负数据库和深度学习的多元时序数据隐私保护方法，采用一种介于扰乱与加密方案之间的方法，既能满足隐私保护的要求，同时保证良好的性能。

本发明所采用的技术方案是：一种基于负数据库和深度学习的多元时序数据隐私保护方法，包括以下步骤：

步骤1：将多元时序数据Y＝{y₁ y₂ … y_T}进行预处理，转化成二进制串

其中，

n是变量维度，

是实数集；

步骤2：选取负数据库生成算法QK-hidden，针对步骤1转换的数据

生成相应的负数据库NDB＝{NDB₁ NDB₂ … NDB_T}；

步骤3：从步骤2中提取负数据库的梗概S＝{S₁ S₂ … S_T}，其中S_i是NDB_i的梗概；

步骤4：基于梗概S，完成基于负数据库的激活函数估算；

步骤5：将S输入多元时序数据预测网络，得到非线性部分神经网络和线性部分自回归模型集成的预测结果，选取满足预设条件的S作为最终的隐私保护数据；

所述多元时序数据预测网络，包括卷积神经网络CNN的卷积层与控循环单元网络GRU结合的深度学习模型，将卷积层提取得到的特征按照时间顺序输入到控循环单元网络GRU，捕获时间序列短期和长期的依赖关系，得到下一个时刻的状态向量；同时结合自回归模型AR作为所述多元时序数据预测网络线性层，搭建多元时序数据预测网络；通过所述多元时序数据预测网络，最终得到非线性部分和线性部分集成的预测结果。

本发明的有益效果在于：

(1)根据多元时序数据的长短期周期性特点，选择由卷积神经网络(Convolutional Neural Network，CNN)的一个卷积层(Convolutional Layer)与控循环单元网络GRU结合的深度学习模型，捕获时间序列短期和长期的依赖关系，同时结合自回归模型(Autoregressive)作为线性层对其建模；

(2)本发明采用贝叶斯定理和概率统计方法，结合深度学习模型的激活函数，分析基于负数据库(Negative Databases，NDB)的激活函数估算问题，采用细粒度更高的负数据库生成算法QK-hidden对其进行隐私保护操作；

(3)本发明在满足数据隐私安全的前提下，仍可以保证良好的数据可用性。

附图说明

图1为本发明实施例的流程框图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

请见图1，本发明首先对原始多元时序数据集中的数据进行数据预处理，转化成与最大值相同位数的定长的二进制串；根据多元时序数据的长短期周期性特点，选择由卷积神经网络(CNN)的卷积层与控循环单元网络GRU结合的深度学习模型，捕获时间序列短期和长期的依赖关系，同时结合自回归模型作为线性层对其建模；针对二进制串，采用贝叶斯定理和概率统计方法，分析基于负数据库(NDB)的激活函数估算问题，采用细粒度更高的负数据库生成算法QK-hidden对其进行隐私保护操作；最后，进行训练，得到具有隐私保护效果的模型，并对其进行预测，输出预测结果。

下面结合实例对本发明进行详细的描述，本发明提供的一种基于负数据库和深度学习的多元时序数据隐私保护方法，包括以下步骤：

其中，

n是变量维度，

是实数集；

本实施例中，将多元时序数据进行预处理，转化成与最大值相同位数的定长的二进制串。

生成相应的负数据库NDB＝{NDB₁ NDB₂ … NDB_T}；

本实施例中，负数据库生成算法QK-hidden，存储的是由n位二进制串组成的数据集的补集中内容的压缩形式；对于m条最大属性位数为L的隐藏串s，QK-hidden算法在对负数据库中生成不同类型记录的概率p₁，p₂，…，p_K进行控制的同时，引入一组取反参数q₁，q₂，…，q_L对每一个属性位的取反概率进行控制；其中，参数K是负数据库中每一条记录的确定位个数，r是控制负数据库大小的参数，N＝m×r，N是负数据库中总条目数；负数据库以概率参数p_i生成第i种类型的记录，生成第i种类型的记录的方法是按照取反参数选择i个取反位，然后随机选择K-i个取正位，最后加入到负数据库中。

QK-hidden负数据库生成算法的伪代码如下：

步骤3：从步骤2中提取负数据库的梗概S＝{S₁S₂…S_T}，其中S_i是NDB_i的梗概；

步骤4：将S输入多元时序数据预测网络，完成基于负数据库的激活函数估算，得到非线性部分神经网络和线性部分自回归模型集成的预测结果，选取满足预设条件的S作为最终的隐私保护数据；

所述多元时序数据预测网络，包括卷积神经网络CNN(Convolutional NeuralNetwork)的卷积层(Convolutional Layer)与控循环单元网络GRU结合的深度学习模型，将卷积层提取得到的特征按照时间顺序输入到控循环单元网络GRU，捕获时间序列短期和长期的依赖关系，得到下一个时刻的状态向量；同时结合自回归模型AR(Autoregressive)作为所述多元时序数据预测网络线性层，搭建多元时序数据预测网络；通过所述多元时序数据预测网络，最终得到非线性部分和线性部分集成的预测结果。

本实施例中设置一个卷积层，它的目的是提取时间序列的短期特征，捕捉多元变量之间的短期模式也就是时间维度的局部依赖。本实施例的卷积层由若干滤波器组成，宽度为w，高度为n，高度设置为与变量个数相同；第k个滤波器扫过输入矩阵Y，并产生：

h_k＝RELU(W_K*Y+b_k) (1)

其中，*表示卷积操作，输出值h_k是一个向量，k是第k个卷积核，RELU即RELU函数，RELU(x)＝max(0，x)；W_K是权重矩阵，b_k是偏置。

随后将提取得到的特征，按照时间顺序输入到循环神经网络中，得到下一个时刻的状态向量。由于循环神经网络会出现梯度消失和梯度爆炸现象，无法掌握长时间跨度的非线性关系，为解决长期依赖问题，大量优化理论得到引入并衍生出许多改进算法，包括神经历史压缩器(Neural History Compressor)、长短期记忆网络(Long Short-Term Memorynetworks，LSTM)、门控循环单元网络(GatedRecurrent Unit networks，GRU)、独立循环神经网络(Independent RNN)等，它们都是普通循环神经网络的变体，最常见的是长短期记忆网络LSTM和门控循环单元网络GRU。GRU和LSTM的性能在很多需要“长期记忆”的任务上不分伯仲。但LSTM也因为引入了很多选择性机制，导致参数变多，训练难度也加大了很多。因此，本发明选择了效果与LSTM相当，但参数更少更容易收敛的GRU网络结构，捕获时间序列数据的时间依赖性以及长期模式。

本实施例的控循环单元网络GRU，使用RELU函数作为隐藏更新激活功能；

在时刻t的循环单元的隐藏状态为：

r_t＝σ(y_tW_xr+h_t-1W_hr+b_r) (2)

u_t＝σ(y_tW_xu+h_t-1W_hu+b_u) (3)

c_t＝RELU(y_tW_xc+r_t⊙(h_t-1W_hc)+b_c) (4)

h_t＝(1-u_t)⊙h_t-1+u_t⊙c_t (5)

其中，⊙是元素的乘积，σ是sigmoid函数，y_t是在时刻t的输入，r_t是GRU中组件重置门(resetgate)在时刻t的隐藏状态，u_t是GRU中组件更新门(update gate)在时刻t的隐藏状态，c_t是GRU中的候选记忆单元在时刻t的隐藏状态；W_xr、W_hr、W_xu、W_hu、W_xc、W_hc分别为重置门、更新门、候选记忆单元中训练的权重矩阵，b_r、b_u、b_c分别为重置门、更新门、候选记忆单元中训练的偏置；h_t-1是上一个时刻t-1传输下来的状态，h_t是当前时刻t的输出状态。

由于卷积和递归成分的非线性性质，现在这个神经网络模型的一个主要缺点是输出的规模对输入的规模不敏感。因此，本实施例采用经典的自回归模型(AR)作为线性分量。

本实施例的自回归模型AR为：

其中，i＝1，2，3，...，n，

为AR模型的系数，偏置

q^ar表示多步预测单步的个数；y_t-k，i表示用前k个时刻的状态预测时刻t的输入值，

表示用前k个时刻的状态预测时刻t的预测结果；

AR分量的预测结果记为：

所述多元时序数据预测网络的最终预测结果非线性部分和线性部分的集成；

其中，

为控循环单元网络GRU(非线性部分)的预测结果，

为自回归模型AR(线性部分)的预测结果。

本实施例中，基于梗概S，完成基于负数据库的激活函数估算，并训练多元时序数据预测网络，直到多元时序数据预测网络收敛，得到训练好的多元时序数据预测网络；

对深度学习模型的sigmoid函数和RELU函数，基于负数据库进行激活函数估算；其中：

其中，z表示神经元中的线性计算结果，被表示为

[x₁ … x_m]表示原始的隐私数据，m表示输入x属性的个数，[w₁ … w_m]^T为权重矩阵；

隐藏串s的负数据库为NDB_s，在记录中属性的第i位与s对应位不同的概率P_diff[i]是：

上式中K表示有K种类型的负数据库记录，其中，第i中类型的负数据库记录有i个确定位，p_j表示生成第j种类型的负数据库记录的概率，它有j个确定位与隐藏串对应位置相反，剩余的K-j个确定位与隐藏串相同，q_i表示选择属性的第i位与隐藏串在相应位置不同的概率，L代表属性位长度；

隐藏串s的第i个属性的第j位为0的概率

为：

其中，P_same[j]是属性的第j位与s对应位相同的概率，n₀是NDB_s中第i个属性的第j位为0的总记录数，n₁是NDB_s中第i个属性的第j位为1的总记录数；如果s＝S_k，那么n₀＝S_k[i×L+j][0]，n₁＝S_k[i×L+j][1]，

隐藏串s的第i个属性的第j位为1的概率

为：

隐藏串s的第i个属性值为d的概率P(s_i＝d)为：

其中，0≤d≤2^L-1，

是s_i的二进制表示，d的二进制表示d^bin＝b₁ ... b_L；

因此，经过负数据库隐私保护处理的z的估算值为：

对于激活函数sigmoid函数和RELU函数的估算公式为：

将公式(15)分别代入公式(16)(17)中，则完成了基于负数据库进行激活函数估算。

本实施例训练多元时序数据预测网络，其优化目标为：

其中，ΩTrain是用于训练的时间序列的集合，||·||_F是Frobenius范数，h是当前时刻的理想界限，预测任务中h值是超参数，由环境设置的需求决定；

本实施例要对经过隐私保护处理后的多元时序数据进行预测任务。给定一组已知的时序数据Y＝{y₁,y₂,…,y_T}，以滚动(滑动)预测的形式，预测未来的时间序列信号；将时间戳T处的输入矩阵表示为

开始训练多元时序数据预测网络时，首先对权值进行随机初始化；目标函数评估多元时序数据预测网络并返回一个数值，表明该多元时序数据预测网络的有用程度，同时每次迭代中修改多元时序数据预测网络的权重，从而改变目标函数返回的值；

采用随机梯度下降法，对多元时序数据预测网络进行训练，计算误差输出时按从输入到输出的方向进行，而调整权值和阈值则从输出到输入的方向进行；在正向传播时，输入信号通过隐含层作用于输出节点，经过非线性变换，产生输出信号，若实际输出与期望输出不相符，则转入误差的反向传播过程；误差反传是将输出误差通过隐含层向输入层逐层反传，并将误差分摊给各层所有单元，以从各层获得的误差信号作为调整各单元权值的依据；通过调整输入节点与隐层节点的联接强度和隐层节点与输出节点的联接强度以及阈值，使误差沿梯度方向下降，经过反复学习和迭代，在学习到一定阶段后，损失变化曲线趋于平稳，确定与最小误差相对应的网络参数，包括权值和阈值，则停止训练。

本实施例选择两个评估指标来评估该模型的预测性能，相对平方根误差(RootRelative Squared Error，RSE)和经验相关系数(Empirical Correlation Coefficient，CORR)。其中，RSE越小，表示模型预测结果越好；CORR越大，表示模型预测结果越好

本发明已在公开的UCI数据库(加州大学欧文分校提出的用于机器学习的数据集)electricity和traffic上验证过其可行性，实验结果表明，与未进行隐私保护处理的模型相比，预测准确率略有下降。因此本发明可以通过调节参数，实现不同的安全性和预测准确率，一定程度上避免隐私泄漏问题带来的损失。

以上为简单的基于负数据库和深度学习的多元时序数据隐私保护方案分析，本发明适用于时序数据隐私保护，并且能够保证良好的数据可用性，进行时序数据预测。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于负数据库和深度学习的多元时序数据隐私保护方法，其特征在于，包括以下步骤：

步骤1：将多元时序数据Y＝{y₁ y₂…y_T}进行预处理，转化成二进制串

其中，

n是变量维度，

是实数集；

生成相应的负数据库NDB＝{NDB₁ NDB₂…NDB_T}；

步骤3：从步骤2中提取负数据库的梗概S＝{S₁ S₂…S_T}，其中S_i是NDB_i的梗概；

2.根据权利要求1所述的基于负数据库和深度学习的多元时序数据隐私保护方法，其特征在于：步骤1中，将多元时序数据进行预处理，转化成与最大值相同位数的定长的二进制串。

3.根据权利要求1所述的基于负数据库和深度学习的多元时序数据隐私保护方法，其特征在于：步骤2中，所述负数据库生成算法QK-hidden，存储的是由n位二进制串组成的数据集的补集中内容的压缩形式；对于m条最大属性位数为L的隐藏串s，QK-hidden算法在对负数据库中生成不同类型记录的概率p₁,p₂,…,p_K进行控制的同时，引入一组取反参数q₁,q₂,…,q_L对每一个属性位的取反概率进行控制；其中，参数K是负数据库中每一条记录的确定位个数，r是控制负数据库大小的参数，N＝m×r，N是负数据库中总条目数；负数据库以概率参数p_i生成第i种类型的记录，生成第i种类型的记录的方法是按照取反参数选择i个取反位，然后随机选择K-i个取正位，最后加入到负数据库中。

4.根据权利要求1所述的基于负数据库和深度学习的多元时序数据隐私保护方法，其特征在于：步骤4中，所述卷积层由若干滤波器组成，宽度为w，高度为n，高度设置为与变量个数相同；第k个滤波器扫过输入矩阵Y，并产生：

h_k＝RELU(W_K*Y+b_k) (1)

其中，*表示卷积操作，输出值h_k是一个向量，k是第k个卷积核，RELU即RELU函数，RELU(x)＝max(0,x)；W_K是权重矩阵，b_k是偏置。

5.根据权利要求1所述的基于负数据库和深度学习的多元时序数据隐私保护方法，其特征在于：步骤4中，所述控循环单元网络GRU，使用RELU函数作为隐藏更新激活功能；

在时刻t的循环单元的隐藏状态为：

r_t＝σ(y_tW_xr+h_t-1W_hr+b_r) (2)

u_t＝σ(y_tW_xu+h_t-1W_hu+b_u) (3)

c_t＝RELU(y_tW_xc+r_t⊙(h_t-1W_hc)+b_c) (4)

h_t＝(1-u_t)⊙h_t-1+u_t⊙c_t (5)

其中，⊙是元素的乘积，σ是sigmoid函数，y_t是在时刻t的输入，r_t是GRU中组件重置门在时刻t的隐藏状态，u_t是GRU中组件更新门在时刻t的隐藏状态,c_t是GRU中的候选记忆单元在时刻t的隐藏状态；W_xr、W_hr、W_xu、W_hu、W_xc、W_hc分别为重置门、更新门、候选记忆单元中训练的权重矩阵，b_r、b_u、b_c分别为重置门、更新门、候选记忆单元中训练的偏置；h_t-1是上一个时刻t-1传输下来的状态，h_t是当前时刻t的输出状态。

6.根据权利要求1所述的基于负数据库和深度学习的多元时序数据隐私保护方法，其特征在于，步骤4中，所述自回归模型AR为：