CN111835776A - 一种网络流量数据隐私保护方法及系统 - Google Patents
一种网络流量数据隐私保护方法及系统 Download PDFInfo
- Publication number
- CN111835776A CN111835776A CN202010689643.7A CN202010689643A CN111835776A CN 111835776 A CN111835776 A CN 111835776A CN 202010689643 A CN202010689643 A CN 202010689643A CN 111835776 A CN111835776 A CN 111835776A
- Authority
- CN
- China
- Prior art keywords
- data
- network traffic
- traffic data
- privacy protection
- instruction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1416—Event detection, e.g. attack signature detection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1425—Traffic logging, e.g. anomaly detection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/20—Network architectures or network communication protocols for network security for managing network security; network security policies in general
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computing Systems (AREA)
- Computer Hardware Design (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明涉及一种数据保护的技术领域,揭露了一种网络流量数据隐私保护方法,包括:接收网络流量数据隐私保护指令,并利用基于缓存策略的指令校验算法对所述网络流量数据隐私保护指令进行指令校验;根据所述校验成功的网络流量数据隐私保护指令,获取指令中相应的网络流量数据,并利用K‑means算法进行网络流量数据的聚合;利用基于交互信息的特征选择方法得到网络流量数据中的特征子集;利用级联的随机森林模型得到特征子集中的异常网络流量数据特征,并将其进行删除处理;根据所述特征子集,利用基于随机扰动的数据隐私保护算法进行网络流量数据的隐私保护。本发明还提出一种网络流量数据隐私保护系统。本发明实现了隐私数据的保护。
Description
技术领域
本发明涉及数据保护的技术领域,尤其涉及一种网络流量数据隐私保护方法及系统。
背景技术
随着互联网技术、大容量存储技术的迅猛发展以及数据共享范围的逐步扩大,数据的网络化与透明化成为不可阻挡的大趋势,用户在网络中产生的数据信息被频繁地用于数据挖掘,导致隐私泄露等网络安全问题层出不穷。因此,大数据环境下的网络数据隐私保护成为当前重要的研究方向,力求实现数据的可用性和隐私的安全性之间的平衡。
目前的数据隐私保护技术主要有基于数据匿名的隐私保护技术和基于数据扭曲的隐私保护技术,其中,数据匿名是在权衡隐私泄露风险和数据精度的基础上,对敏感数据和可能泄露的敏感信息进行有选择地发布,从而达到降低隐私泄露风险的目的,数据匿名化主要是研宄设计有效的匿名化规则,使得采用该匿名化准则发布后的数据能够在保护隐私的同时保持其使用价值,但是发布后的数据存在一定程度的缺损,这会造成在一定程度上的数据隐私泄露,实现最优化的数据匿名开销较大;数据扭曲技术是通过添加随机噪声进行数据扭曲,从而隐藏原始数据,在数据扭曲的方法中,一方面是通过在原始数据上添加拉普拉斯噪声来降低隐私泄露的风险,另一方面是基于数据交换,通过对原始数据进行变换生成新的数据,但同时不会改变原始数据的统计信息,但是这种方法会使得扭曲后算法的挖掘精度大大降低。
同时,针对网络流量数据中存在的异常数据,现有技术主要为孤立森林算法,其中孤立森林算法根据叶子节点到根节点的路径长度建立异常指数,对全局异常点检测的效果较好,但是不擅长处理局部的相对稀疏点。
鉴于此,在减少数据开销的基础上,如何对网络流量数据中存在的异常数据进行处理,并对其中的隐私数据进行保护,成为本领域技术人员亟待解决的问题。
发明内容
本发明提供一种网络流量数据隐私保护方法,通过对现有异常数据处理算法进行改进,对网络流量数据中存在的异常数据进行处理,并提供了一种基于随机扰动的隐私保护方法,从而实现隐私数据的保护。
为实现上述目的,本发明提供的一种网络流量数据隐私保护方法,包括:
接收网络流量数据隐私保护指令,并利用基于缓存策略的指令校验算法对所述网络流量数据隐私保护指令进行指令校验;
根据所述校验成功的网络流量数据隐私保护指令,获取指令中相应的网络流量数据,并利用K-means算法进行网络流量数据的聚合;
利用基于交互信息的特征选择方法得到网络流量数据中的特征子集;
利用级联的随机森林模型得到特征子集中的异常网络流量数据特征,并将其进行删除处理;
根据所述特征子集,利用基于随机扰动的数据隐私保护算法进行网络流量数据的隐私保护。
可选地,所述利用基于缓存策略的指令校验算法对所述网络流量数据隐私保护指令进行指令校验,包括:
1)初始化系统中的缓存cj(1≤j≤r)。设置其状态为未使用,同时初始化字典为空,AMN0=null,所述AMN为DBG图中的关联主节点;
4)如果BNp=0,说明完成了以AMNp所对应的指令的校验,本发明则标记cw为空闲,并转2);否则本发明设置cw=cp,并转2);
5)释放所有的缓存cj(1≤j≤r),并清空数据字典,所述网络流量数据隐私保护指令的校验结束,进一步地,对于指令校验失败的指令,本发明所述系统则会报错并进行相应的失败处理。
可选地,所述利用K-means算法进行网络流量数据的聚合,包括:
1)从网络流量数据中任选K个向量的数据作为初始聚类中心,其中网络流量数据ND={X1,...,Xn},聚类数量K={C1,...,Ck};
2)对于网络流量数据中每个Xi,分别计算它到K个聚类中心的欧氏距离,以欧式距离最小的原则,将Xi分配到对应的分类Cj中;
4)重复上述步骤,直到聚类中心不再发生变化,即满足目标函数约束条件:
其中:
Cj为聚类类别为j的集合;
uj为聚类类别为j的聚类中心;
Xi为聚类类别为j的网络流量数据。
可选地,所述基于交互信息的特征选择方法为:
1)对于每个Xi∈{X1,...,Xn},计算网络流量数据Xi与数据类别C之间的对称不确定性SUi,C:
I(Xi;C)=H(Xi,C)+H(Xi|C)-H(C|Xi)
其中:
H(Xi,C)为网络流量数据Xi与数据类别C之间的联合信息熵;
H(Xi|C)为网络流量数据Xi与数据类别C之间的条件信息熵;
I(Xi;C)为网络流量数据Xi与数据类别C之间的交互信息;
H(Xi),H(C)分别为网络流量数据Xi与数据类别C的随机变量信息熵;
2)选出SUi,C>δ的属性特征,按照SUi,C降序的顺序将所有的满足条件的属性特征f放入集合S′中;
3)对集合S′中任意fi∈f,计算fi和fj之间的对称不确定性SUi,j;
可选地,所述利用级联的随机森林模型得到特征子集中的异常网络流量数据特征,包括:
所述级联随机森林是由CART决策树集成的随机森林通过层级堆叠的方式形成的级联结构,级联结构中每一个新层的输入,都是由该层之前所有层的输出和原始输入聚合在一起组成的,级联随机森林的每一个级联层会统计所有CART决策树在输入样本上的预测结果,得出各类的比例,生成类概率向量,随后,将输入样本上预测的类概率向量与特征切分后形成的原始类概率向量拼接后作为下一个级联层的输入特征;
对于包含c个异常类别的检测问题,经过随机森林分类后,特征子集中长度为n的一维特征向量将产生长度为c(n-m+1)的类概率向量;随后,新生成的类概率向量将作为后面级联随机森林的输入特征。随机森林中的每一棵决策树都根据特征向量子片在节点上进行划分,由最后落入叶子节点上的一组值得出预测概率,然后对森林中所有决策树的预测求均值,从而得到最终输出的类概率向量;
将级联随机森林最后一层的预测结果作为整个级联随机森林的检测结果,统计最后一层森林中所有决策树的输出类别,然后在生成整个森林的类别概率分布的基础上采用投票法进行决策;学习器hi从特征类别集合{C1,...,Ck}中预测出一个标记,将hi在特征子集x上的预测输出表示为一个N维向量其中是hi在类别标记Cj上的输出;
采用绝对多数投票法进行异常特征的检测,若某标记得票过半数则预测为该标记,否则认为该特征为异常网络流量数据特征,并将其进行删除处理,所述绝对多数投票法为:
其中:
可选地,所述利用基于随机扰动的数据隐私保护算法进行网络流量数据的隐私保护,包括:
1)对属性Yj进行排序,找到Yj的最大值和最小值,记Yj的最大值为max(Yj),最小值为min(Yj);
2)将属性Yj[min(Yj),max(Yj)]中的数据等分为k个区间,将生成的k个区间记为I1,I2,…,Ik,每个区间端点sp的计算方法为:
3)分别统计每个区间中所包含的数据个数,其中原始属性Yj所包含的数据个数为numtotal,区间(sp,sp+1]之间所包含的数据个数为nump,并计算每个区间端点sp的取值概率:
其中:
nump为区间(sp,sp+1]之间所包含的数据个数;
numtotal为原始属性Yj所包含的数据个数;
4)在得到每个区间端点的取值概率之后,原始属性在该段取值范围内的分布函数可以采用一阶线性插值拟合的方式来得到,原始数据整体的分布函数可以由多段分布函数组成,即原始数据的分布函数F(x)可以近似表示为:
其中:
nump为区间(sp,sp+1]之间所包含的数据个数;
numtotal为原始属性Yj所包含的数据个数;
x为所获取的网络流量数据;
sp为区间端点;
5)将原始数据的分布函数的定义域D和值域f(D)进行互换,按照此对应法则得到一个在值域f(D)上的函数,在生成与原始数据独立同分布的数据时要求在每个分段区间上生成的数据的个数与原始数据相同,且在每个区间中新生成的数据符合均匀分布;重复该步骤,生成与原始属性Yj独立同分布的新的数据来代替原始数据进行发布,实现对每维数据的随机扰动。
此外,为实现上述目的,本发明还提供一种网络流量数据隐私保护系统,所述系统包括:
网络流量数据获取装置,用于根据网络流量数据隐私保护指令,获取网络流量数据;
网络流量数据处理器,用于利用K-means算法进行网络流量数据的聚合,利用基于交互信息的特征选择方法得到网络流量数据中的特征子集,同时利用级联的随机森林模型得到特征子集中的异常网络流量数据特征,并将其进行删除处理;
网络流量数据隐私保护装置,用于利用基于随机扰动的数据隐私保护算法进行网络流量数据的隐私保护。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有网络流量数据隐私保护指令,所述网络流量数据隐私保护指令可被一个或者多个处理器执行,以实现如上所述的网络流量数据隐私保护的实现方法的步骤。
相对于现有技术,本发明提出一种网络流量数据隐私保护方法,该技术具有以下优势:
首先,现有特征选择方法为FCBF算法,该算法的原则是选择与类别相关度高的属性特征,同时剔除冗余性大的特征,所述FCBF算法能够快速有效地筛选出符合要求的特征子集,但是算法只考虑了单个属性与类别之间的关系,却没有考虑到属性之间的联合作用也会影响特征子集的效果。因此本发明提出一种基于互信息的特征选择方法,所述特征选择方法利用对称不确定性来衡量属性与类别之间的相关程度,通过预先设定阈值,将一些不相关的属性特征刪除,满足条件的属性特征按照相关程度降序的顺序放入集合中,接下来通过比较属性与属性之间的对称不确定性,如果属性与属性之间的对称不确定性大于属性与类别之间的对称不确定性,那么该属性就认为是冗余特征,则删除该特征同时将非冗余的特征加入到特征子集中。当有一个属性添加到特征子集之后,那么其他与之存在冗余关系的特征都应该被删除。最后在特征子集中存在的属性特征之间是不存在冗余性的,而且属性在特征子集中的排序是按照与类别之间的相关性从高到低进行排列的,同时本发明所述算法采用SUj,k,C对来衡量属性之间的联合作用与类别之间的相关程度,即通过计算属性与属性之间的联合不确定性之和,若该和大于属性与类别之间的对称不确定性,则从备选属性集合中删除该特征。相较于现有技术,本发明考虑将互信息从衡量两个变量之间的依赖程度进一步扩展到衡量多个变量之间的相关性,即可以先用互信息衡量两个变量之间的依赖性,再衡量这个结果与第三个变量之间的依赖性,采用互信息来度量两个属性特征与类别之间的相关程度,这样便使得所构建的特征子集结合属性特征之间的联合作用。
现有的数据隐私保护技术主要有基于数据匿名的隐私保护技术和基于数据扭曲的隐私保护技术,其中,基于数据匿名的隐私保护技术发布后的数据存在一定程度的缺损,这会造成在一定程度上的数据隐私泄露,实现最优化的数据匿名开销较大;在数据扭曲的方法中,通过对原始数据进行变换生成新的数据,但同时不会改变原始数据的统计信息,但是这种方法会使得扭曲后算法的挖掘精度大大降低。因此本发明提出一种基于随机扰动的数据隐私保护算法,在本发明所述算法中,首先,要对原始流量数据表中各个属性的分布规律进行统计,由于每条网络样本中含有很多项网络流量属性,且每一个网络流量属性都有多种不同的取值,如果对每一个属性取值都计算概率,将会使分布函数的计算过程非常复杂,而且对于其他的网络流量数据也不适用,因此,在统计原始属性分布时,本发明采用了一种划分区间的方法,即根据不同的数据集特点和划分精度要求,将每维属性的取值划分k个区间,然后计算出每个区间端点的值,区间内部采用一阶线性插值拟合的方法近似逼近原始数据,求出每个区间中所对应的分布函数;同时在发布数据的生成过程中,本发明将原始数据的分布函数的定义域和值域进行互换,按照此对应法则得到一个在值域上的函数,在生成与原始数据独立同分布的数据时要求在每个分段区间上生成的数据的个数与原始数据相同,且在每个区间中新生成的数据符合均匀分布,由于发布的数据是与原始数据独立的,即与原始数据没有一定的关联,因此能够在很大程度上保证原始数据的安全性,另一方面,新生成的数据是与原始数据独立同分布的,能够在一定程度上保持原始数据的统计特性,能够保证新生成的数据发布后用于后续的分析中,即仍然可以保持数据的可用性。
附图说明
图1为本发明一实施例提供的一种网络流量数据隐私保护方法的流程示意图;
图2为本发明一实施例提供的一种网络流量数据隐私保护系统的结构示意图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
通过对现有异常数据处理算法进行改进,对网络流量数据中存在的异常数据进行处理,并提供了一种基于随机扰动的隐私保护方法,从而实现隐私数据的保护。参照图1所示,为本发明一实施例提供的网络流量数据隐私保护方法示意图。
在本实施例中,网络流量数据隐私保护方法包括:
S1、接收网络流量数据隐私保护指令,并利用基于缓存策略的指令校验算法对所述网络流量数据隐私保护指令进行指令校验。
首先,本发明接收网络流量数据隐私保护指令,并利用基于缓存策略的指令校验算法对所述网络流量数据隐私保护指令进行指令校验,对于校验成功的数据指令,本发明则执行该指令进行网络流量数据隐私保护策略,所述基于缓存策略的指令校验算法的指令校验流程为:
1)初始化系统中的缓存cj(1≤j≤r)。设置其状态为未使用,同时初始化字典为空,AMN0=null,所述AMN为DBG图中的关联主节点;
4)如果BNp=0,说明完成了以AMNp所对应的指令的校验,本发明则标记cw为空闲,并转2);否则本发明设置cw=cp,并转2);
5)释放所有的缓存cj(1≤j≤r),并清空数据字典,所述网络流量数据隐私保护指令的校验结束,进一步地,对于指令校验失败的指令,本发明所述系统则会报错并进行相应的失败处理。
S2、根据所述校验成功的网络流量数据隐私保护指令,获取指令中相应的网络流量数据,并利用K-means算法进行网络流量数据的聚合。
进一步地,根据所述校验成功的网络流量数据隐私保护指令,本发明获取指令中相应的网络流量数据,并利用K-means算法进行网络流量数据的聚合,所述网络流量数据聚类的流程为:
1)从网络流量数据中任选K个向量的数据作为初始聚类中心,其中网络流量数据ND={X1,...,Xn},聚类数量K={C1,...,Ck};
2)对于网络流量数据中每个Xi,分别计算它到K个聚类中心的欧氏距离,以欧式距离最小的原则,将Xi分配到对应的分类Cj中;
4)重复上述步骤,直到聚类中心不再发生变化,即满足目标函数约束条件:
其中:
Cj为聚类类别为j的集合;
uj为聚类类别为j的聚类中心;
Xi为聚类类别为j的网络流量数据。
S3、利用基于交互信息的特征选择方法得到网络流量数据中的特征子集。
进一步地,根据上述聚类结果,本发明利用基于交互信息的特征选择方法得到网络流量数据中的特征子集,所述基于交互信息的特征选择方法为:
1)对于每个Xi∈{X1,...,Xn},计算网络流量数据Xi与数据类别C之间的对称不确定性SUi,C:
I(Xi;C)=H(Xi,C)+H(Xi|C)-H(C|Xi)
其中:
H(Xi,C)为网络流量数据Xi与数据类别C之间的联合信息熵;
H(Xi|C)为网络流量数据Xi与数据类别C之间的条件信息熵;
I(Xi;C)为网络流量数据Xi与数据类别C之间的交互信息;
H(Xi),H(C)分别为网络流量数据Xi与数据类别C的随机变量信息熵;
2)选出SUi,C>δ的属性特征,按照SUi,C降序的顺序将所有的满足条件的属性特征f放入集合S′中;
3)对集合S′中任意fi∈f,计算fi和fj之间的对称不确定性SUi,j;
S4、利用级联的随机森林模型得到特征子集中的异常网络流量数据特征,并将其进行删除处理。
进一步地,根据所述网络流量数据中的特征子集,本发明利用级联的随机森林模型的得到特征子集中的异常网络流量数据特征,所述级联随机森林是由CART决策树集成的随机森林通过层级堆叠的方式形成的级联结构,级联结构中每一个新层的输入,都是由该层之前所有层的输出和原始输入聚合在一起组成的,级联随机森林的每一个级联层会统计所有CART决策树在输入样本上的预测结果,得出各类的比例,生成类概率向量,随后,将输入样本上预测的类概率向量与特征切分后形成的原始类概率向量拼接后作为下一个级联层的输入特征;
对于包含c个异常类别的检测问题,经过随机森林分类后,特征子集中长度为n的一维特征向量将产生长度为c(n-m+1)的类概率向量;随后,新生成的类概率向量将作为后面级联随机森林的输入特征。随机森林中的每一棵决策树都根据特征向量子片在节点上进行划分,由最后落入叶子节点上的一组值得出预测概率,然后对森林中所有决策树的预测求均值,从而得到最终输出的类概率向量;
进一步地,本发明将级联随机森林最后一层的预测结果作为整个级联随机森林的检测结果,统计最后一层森林中所有决策树的输出类别,然后在生成整个森林的类别概率分布的基础上采用投票法进行决策;学习器hi从特征类别集合{C1,...,Ck}中预测出一个标记,将hi在特征子集x上的预测输出表示为一个N维向量其中是hi在类别标记Cj上的输出;
进一步地,本发明采用绝对多数投票法进行异常特征的检测,若某标记得票过半数则预测为该标记,否则认为该特征为异常网络流量数据特征,并将其进行删除处理,所述绝对多数投票法为:
其中:
S5、根据所述特征子集,利用基于随机扰动的数据隐私保护算法进行网络流量数据的隐私保护。
进一步地,根据所述特征子集A=(X1,...,Xn),其中每条网络数据特征项Xi都是由多维网络流量的属性特征构成,若每条数据特征项Xi都包含m维网络流量属性,即数据表的列数为m,则网络流量数据中每维属性用Yj(1≤j≤m)表示:
因此每条网络数据特征项Xi可进一步表示为:
进一步地,本发明利用基于随机扰动的数据隐私保护算法进行网络流量数据的隐私保护,所述基于随机扰动的数据隐私保护算法流程为:
1)对属性Yj进行排序,找到Yj的最大值和最小值,记Yj的最大值为max(Yj),最小值为min(Yj);
2)将属性Yj[min(Yj),max(Yj)]中的数据等分为k个区间,将生成的k个区间记为I1,I2,...,Ik,每个区间端点sp的计算方法为:
3)分别统计每个区间中所包含的数据个数,其中原始属性Yj所包含的数据个数为numtotal,区间(sp,sp+1]之间所包含的数据个数为nump,并计算每个区间端点sp的取值概率:
其中:
nump为区间(sp,sp+1]之间所包含的数据个数;
numtotal为原始属性Yj所包含的数据个数;
4)在得到每个区间端点的取值概率之后,原始属性在该段取值范围内的分布函数可以采用一阶线性插值拟合的方式来得到,原始数据整体的分布函数可以由多段分布函数组成,即原始数据的分布函数F(x)可以近似表示为:
其中:
nump为区间(sp,sp+1]之间所包含的数据个数;
numtotal为原始属性Yj所包含的数据个数;
x为所获取的网络流量数据;
sp为区间端点;
5)将原始数据的分布函数的定义域D和值域f(D)进行互换,按照此对应法则得到一个在值域f(D)上的函数,在生成与原始数据独立同分布的数据时要求在每个分段区间上生成的数据的个数与原始数据相同,且在每个区间中新生成的数据符合均匀分布;重复该步骤,生成与原始属性Yj独立同分布的新的数据来代替原始数据进行发布,实现对每维数据的随机扰动。
下面通过一个仿真实验来说明本发明的具体实施方式,并对发明的处理方法进行测试。本发明算法的硬件测试环境的处理器为Intel(R)Core(TM)i5-7700 CPU 8核,显卡为GeForce GTX1040,显存8G,开发测试软件为matlab;对比算法为基于数据匿名的隐私保护算法和基于数据扭曲的隐私保护算法。
根据实验结果,基于数据匿名的隐私保护算法中原始数据与匿名数据之间的相关性为31.23%,基于数据扭曲的隐私保护算法中原始数据与匿名数据之间的相关性为42.68%,本发明所述算法中原始数据与匿名数据之间的相关性为21.16%,相较于对比算法,本发明所提出的网络流量数据隐私保护方法所生成的干扰数据与原始数据之间的相关性最低,说明本发明所述算法更好地实现了网络流量数据的隐私保护。
发明还提供一种网络流量数据隐私保护系统。参照图2所示,为本发明一实施例提供的网络流量数据隐私保护系统的内部结构示意图。
在本实施例中,所述网络流量数据隐私保护系统1至少包括网络流量数据获取装置11、网络流量数据处理器12、网络流量数据隐私保护装置13,通信总线14,以及网络接口15。
其中,网络流量数据获取装置11可以是PC(Personal Computer,个人电脑),或者是智能手机、平板电脑、便携计算机等终端设备,也可以是一种服务器等。
网络流量数据处理器12至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。网络流量数据处理器12在一些实施例中可以是网络流量数据隐私保护系统1的内部存储单元,例如该网络流量数据隐私保护系统1的硬盘。网络流量数据处理器12在另一些实施例中也可以是网络流量数据隐私保护系统1的外部存储设备,例如网络流量数据隐私保护系统1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,网络流量数据处理器12还可以既包括网络流量数据隐私保护系统1的内部存储单元也包括外部存储设备。网络流量数据处理器12不仅可以用于存储安装于网络流量数据隐私保护系统1的应用软件及各类数据,还可以用于暂时地存储已经输出或者将要输出的数据。
网络流量数据隐私保护装置13在一些实施例中可以是一中央处理器(CentralProcessing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行网络流量数据处理器12中存储的程序代码或处理数据,例如网络流量数据隐私保护程序指令等。
通信总线14用于实现这些组件之间的连接通信。
网络接口15可选的可以包括标准的有线接口、无线接口(如WI-FI接口),通常用于在该系统1与其他电子设备之间建立通信连接。
可选地,该系统1还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在网络流量数据隐私保护系统1中处理的信息以及用于显示可视化的用户界面。
图2仅示出了具有组件11-15以及网络流量数据隐私保护系统1,本领域技术人员可以理解的是,图1示出的结构并不构成对网络流量数据隐私保护系统1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
在图2所示的装置1实施例中,网络流量数据处理器12中存储有网络流量数据隐私保护程序指令;网络流量数据隐私保护装置13执行网络流量数据处理器12中存储的网络流量数据隐私保护程序指令的步骤,与网络流量数据隐私保护方法的实现方法相同,在此不作类述。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有网络流量数据隐私保护程序指令,所述网络流量数据隐私保护程序指令可被一个或多个处理器执行,以实现如下操作:
接收网络流量数据隐私保护指令,并利用基于缓存策略的指令校验算法对所述网络流量数据隐私保护指令进行指令校验;
根据所述校验成功的网络流量数据隐私保护指令,获取指令中相应的网络流量数据,并利用K-means算法进行网络流量数据的聚合;
利用基于交互信息的特征选择方法得到网络流量数据中的特征子集;
利用级联的随机森林模型得到特征子集中的异常网络流量数据特征,并将其进行删除处理;
根据所述特征子集,利用基于随机扰动的数据隐私保护算法进行网络流量数据的隐私保护。
需要说明的是,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (8)
1.一种网络流量数据隐私保护方法,其特征在于,所述方法包括:
接收网络流量数据隐私保护指令,并利用基于缓存策略的指令校验算法对所述网络流量数据隐私保护指令进行指令校验;
校验成功后,获取所述网络流量数据隐私保护指令中相应的网络流量数据,并利用K-means算法进行网络流量数据的聚合;
利用基于交互信息的特征选择方法得到网络流量数据中的特征子集;
利用级联的随机森林模型得到特征子集中的异常网络流量数据特征,并将其进行删除处理;
根据所述特征子集,利用基于随机扰动的数据隐私保护算法进行网络流量数据的隐私保护。
2.如权利要求1所述的一种网络流量数据隐私保护方法,其特征在于,所述利用基于缓存策略的指令校验算法对所述网络流量数据隐私保护指令进行指令校验,包括:
1)初始化系统中的缓存cj(1≤j≤r);设置其状态为未使用,同时初始化字典为空,AMN0=null,所述AMN为DBG图中的关联主节点;
4)如果BNp=0,说明完成了以AMNp所对应的指令的校验,本发明则标记cw为空闲,并转2);否则本发明设置cw=cp,并转2);
5)释放所有的缓存cj(1≤j≤r),并清空数据字典,所述网络流量数据隐私保护指令的校验结束,进一步地,对于指令校验失败的指令,本发明所述系统则会报错并进行相应的失败处理。
4.如权利要求3所述的一种网络流量数据隐私保护方法,其特征在于,所述基于交互信息的特征选择方法为:
1)对于每个Xi∈{X1,...,Xn},计算网络流量数据Xi与数据类别C之间的对称不确定性SUi,C:
I(Xi;C)=H(Xi,C)+H(Xi|C)-H(C|Xi)
其中:
H(Xi,C)为网络流量数据Xi与数据类别C之间的联合信息熵;
H(Xi|C)为网络流量数据Xi与数据类别C之间的条件信息熵;
I(Xi;C)为网络流量数据Xi与数据类别C之间的交互信息;
H(Xi),H(C)分别为网络流量数据Xi与数据类别C的随机变量信息熵;
2)选出SUi,C>δ的属性特征,按照SUi,C降序的顺序将所有的满足条件的属性特征f放入集合S′中;
3)对集合S′中任意fi∈f,计算fi和fj之间的对称不确定性SUi,j;
5.如权利要求4所述的一种网络流量数据隐私保护方法,其特征在于,所述利用级联的随机森林模型得到特征子集中的异常网络流量数据特征,包括:
所述级联随机森林是由CART决策树集成的随机森林通过层级堆叠的方式形成的级联结构,级联结构中每一个新层的输入,都是由该层之前所有层的输出和原始输入聚合在一起组成的,级联随机森林的每一个级联层会统计所有CART决策树在输入样本上的预测结果,得出各类的比例,生成类概率向量,将输入样本上预测的类概率向量与特征切分后形成的原始类概率向量拼接后作为下一个级联层的输入特征;
对于包含c个异常类别的检测问题,经过随机森林分类后,特征子集中长度为n的一维特征向量将产生长度为c(n-m+1)的类概率向量;随后,新生成的类概率向量将作为后面级联随机森林的输入特征;随机森林中的每一棵决策树都根据特征向量子片在节点上进行划分,由最后落入叶子节点上的一组值得出预测概率,然后对森林中所有决策树的预测求均值,从而得到最终输出的类概率向量;
将级联随机森林最后一层的预测结果作为整个级联随机森林的检测结果,统计最后一层森林中所有决策树的输出类别,然后在生成整个森林的类别概率分布的基础上采用投票法进行决策;学习器hi从特征类别集合{C1,...,Ck}中预测出一个标记,将hi在特征子集x上的预测输出表示为一个N维向量其中是hi在类别标记Cj上的输出;
采用绝对多数投票法进行异常特征的检测,若某标记得票过半数则预测为该标记,否则认为该特征为异常网络流量数据特征,并将其进行删除处理,所述绝对多数投票法为:
其中:
6.如权利要求5所述的一种网络流量数据隐私保护方法,其特征在于,所述利用基于随机扰动的数据隐私保护算法进行网络流量数据的隐私保护,包括:
1)对属性Yj进行排序,找到Yj的最大值和最小值,记Yj的最大值为max(Yj),最小值为min(Yj);
2)将属性Yj[min(Yj),max(Yj)]中的数据等分为k个区间,将生成的k个区间记为I1,I2,...,Ik,每个区间端点sp的计算方法为:
3)分别统计每个区间中所包含的数据个数,其中原始属性Yj所包含的数据个数为numtotal,区间(Sp,sp+1]之间所包含的数据个数为nump,并计算每个区间端点sp的取值概率:
其中:
nump为区间(sp,sp+1]之间所包含的数据个数;
numtotal为原始属性Yj所包含的数据个数;
4)在得到每个区间端点的取值概率之后,原始属性在该段取值范围内的分布函数可以采用一阶线性插值拟合的方式来得到,原始数据整体的分布函数可以由多段分布函数组成,即原始数据的分布函数F(x)可以近似表示为:
其中:
nump为区间(sp,sp+1]之间所包含的数据个数;
numtotal为原始属性Yj所包含的数据个数;
x为所获取的网络流量数据;
sp为区间端点;
7.一种网络流量数据隐私保护系统,其特征在于,所述系统包括:
网络流量数据获取装置,用于根据网络流量数据隐私保护指令,获取网络流量数据;
网络流量数据处理器,用于利用K-means算法进行网络流量数据的聚合,利用基于交互信息的特征选择方法得到网络流量数据中的特征子集,同时利用级联的随机森林模型得到特征子集中的异常网络流量数据特征,并将其进行删除处理;
网络流量数据隐私保护装置,用于利用基于随机扰动的数据隐私保护算法进行网络流量数据的隐私保护。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有网络流量数据隐私保护程序指令,所述网络流量数据隐私保护程序指令可被一个或者多个处理器执行,以实现如权利要求1至6中任一项所述的一种网络流量数据隐私保护的实现方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010689643.7A CN111835776A (zh) | 2020-07-17 | 2020-07-17 | 一种网络流量数据隐私保护方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010689643.7A CN111835776A (zh) | 2020-07-17 | 2020-07-17 | 一种网络流量数据隐私保护方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111835776A true CN111835776A (zh) | 2020-10-27 |
Family
ID=72923971
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010689643.7A Withdrawn CN111835776A (zh) | 2020-07-17 | 2020-07-17 | 一种网络流量数据隐私保护方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111835776A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112613068A (zh) * | 2020-12-15 | 2021-04-06 | 国家超级计算深圳中心(深圳云计算中心) | 一种多重数据混淆隐私保护方法及系统、存储介质 |
CN113032824A (zh) * | 2021-03-01 | 2021-06-25 | 上海观安信息技术股份有限公司 | 基于数据库流量日志的低频数据泄漏检测方法及系统 |
CN117113421A (zh) * | 2023-10-24 | 2023-11-24 | 北京三特信息技术有限公司 | 一种敏感数据保护系统及方法 |
-
2020
- 2020-07-17 CN CN202010689643.7A patent/CN111835776A/zh not_active Withdrawn
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112613068A (zh) * | 2020-12-15 | 2021-04-06 | 国家超级计算深圳中心(深圳云计算中心) | 一种多重数据混淆隐私保护方法及系统、存储介质 |
CN112613068B (zh) * | 2020-12-15 | 2024-03-08 | 国家超级计算深圳中心(深圳云计算中心) | 一种多重数据混淆隐私保护方法及系统、存储介质 |
CN113032824A (zh) * | 2021-03-01 | 2021-06-25 | 上海观安信息技术股份有限公司 | 基于数据库流量日志的低频数据泄漏检测方法及系统 |
CN113032824B (zh) * | 2021-03-01 | 2023-06-23 | 上海观安信息技术股份有限公司 | 基于数据库流量日志的低频数据泄漏检测方法及系统 |
CN117113421A (zh) * | 2023-10-24 | 2023-11-24 | 北京三特信息技术有限公司 | 一种敏感数据保护系统及方法 |
CN117113421B (zh) * | 2023-10-24 | 2024-02-09 | 北京三特信息技术有限公司 | 一种敏感数据保护系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210357523A1 (en) | Differentially Private Processing and Database Storage | |
CN109416721B (zh) | 隐私保护机器学习 | |
Baldwin et al. | Leveraging support vector machine for opcode density based detection of crypto-ransomware | |
CN111835776A (zh) | 一种网络流量数据隐私保护方法及系统 | |
CN107786943B (zh) | 一种用户分群方法及计算设备 | |
US9805192B1 (en) | Systems and methods for file classification | |
US20230205755A1 (en) | Methods and systems for improved search for data loss prevention | |
US20180052933A1 (en) | Control of Document Similarity Determinations by Respective Nodes of a Plurality of Computing Devices | |
Aristodimou et al. | Privacy preserving data publishing of categorical data through k‐anonymity and feature selection | |
Dou et al. | Collaborative shilling detection bridging factorization and user embedding | |
CN112052891A (zh) | 机器行为识别方法、装置、设备及计算机可读存储介质 | |
Kostakis | Classy: fast clustering streams of call-graphs | |
CN115795000A (zh) | 基于联合相似度算法对比的围标识别方法和装置 | |
JP6777612B2 (ja) | コンピュータシステムにおけるデータ損失を防止するためのシステム及び方法 | |
Gialampoukidis et al. | Probabilistic density-based estimation of the number of clusters using the DBSCAN-martingale process | |
CN110019193A (zh) | 相似帐号识别方法、装置、设备、系统及可读介质 | |
CN111967045A (zh) | 一种基于大数据的数据发布隐私保护算法及系统 | |
CN113761185A (zh) | 主键提取方法、设备及存储介质 | |
CN115544257B (zh) | 网盘文档快速分类方法、装置、网盘及存储介质 | |
de Oliveira et al. | Scalable fast evolutionary k-means clustering | |
CN116187422A (zh) | 神经网络的参数更新方法及相关设备 | |
US11886467B2 (en) | Method, apparatus, and computer-readable medium for efficiently classifying a data object of unknown type | |
CN113011153B (zh) | 文本相关性检测方法、装置、设备及存储介质 | |
Challa et al. | An introduction to Gamma-convergence for spectral clustering | |
Zdunek et al. | Distributed geometric nonnegative matrix factorization and hierarchical alternating least squares–based nonnegative tensor factorization with the MapReduce paradigm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20201027 |
|
WW01 | Invention patent application withdrawn after publication |