CN115996138A - 一种基于随机链路填充和差分隐私的流量混淆方法 - Google Patents

一种基于随机链路填充和差分隐私的流量混淆方法 Download PDF

Info

Publication number
CN115996138A
CN115996138A CN202211371666.9A CN202211371666A CN115996138A CN 115996138 A CN115996138 A CN 115996138A CN 202211371666 A CN202211371666 A CN 202211371666A CN 115996138 A CN115996138 A CN 115996138A
Authority
CN
China
Prior art keywords
filling
data packet
traffic
packet
sampling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211371666.9A
Other languages
English (en)
Inventor
余翔
王彬
段思睿
庞育才
王蓉
肖云鹏
邓福贵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Wanzhida Technology Transfer Center Co ltd
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202211371666.9A priority Critical patent/CN115996138A/zh
Publication of CN115996138A publication Critical patent/CN115996138A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明涉及网络安全领域,具体的说是一种基于随机链路填充和差分隐私的流量混淆方法,包括采集目标网站流量数据,生成到达间隔时间矩阵和数据包长度矩阵;根据配置文件读取填充预算和采样窗口;根据填充预算和采样窗口生成服从瑞利分布的数据包插入时间表;计算数据包的噪声值,根据该噪声值更改该数据包长度;根据时间表调度虚拟数据包,并采样到达间隔时间;倒计时到达间隔时间,若倒计时过程中无数据包到来,则到达间隔时间倒计时结束后插入额外的虚拟数据包;本发明能混淆原始网站的真实特征,提高了匿名网络中用户上网的安全性。

Description

一种基于随机链路填充和差分隐私的流量混淆方法
技术领域
本发明涉及网络安全领域,具体的说是一种基于随机链路填充和差分隐私的流量混淆方法。
背景技术
随着社会对网络和信息的依赖性逐渐增强,数据安全、通信网络安全、隐私保护等概念越来越受到重视。即使人们越来越多地使用加密技术来保护个人隐私,但加密流量的数据包大小、数据包到达间隔时间和数据包方向等统计特征泄露了用户信息。流量分析攻击被建模为一种基于侧信道信息的分类问题。攻击者利用数据包长度、时间序列等信息提取特征,并在一组网站或者应用中进行分类,特征越显著独,流量分析攻击的效果越好。
流量混淆技术是抵抗流量分析的常用技术之一,保证目标量在观测流量集中无法被攻击者识别。常见的流量混淆方式是利用各种手段将目标流量特征字段或统计特征等信息随机化,使得不信任监听者监听目标流量时无法识别。但高性能的机器学习分类算法给流量混淆带来的巨大挑战,导致以往的网站指纹混淆方法无法抵御流量分析攻击。因此需要一种更加有效的流量混淆方法。
经过检索,最接近的现有技术中,CN113347156,一种网站指纹防御的智能流量混淆方法、系统及计算机存储介质,该发明结合直接时间采样和自适应随机填充技术,针对网络用户生成的网站流量进行混淆,以此抵御基于神经网络分类器的网站指纹攻击。但是现有技术中只考虑了数据包的到达间隔时间,而数据包长度信息也是流量分析常使用的特征。
发明内容
为了保护数据包长度、数据包到达间隔等信息,本发明提出一种基于随机链路填充和差分隐私的流量混淆方法,具体包括以下步骤:
采集目标网站流量数据,生成到达间隔时间矩阵和数据包长度矩阵;
根据配置文件读取填充预算和采样窗口;
根据填充预算和采样窗口生成服从瑞利分布的数据包插入时间表;
计算数据包的噪声值,根据该噪声值更改该数据包长度;
根据时间表调度虚拟数据包,并采样IAT;
倒计时IAT,若倒计时过程中五数据包到来,则IAT倒计时结束后插入额外的虚拟数据包。
进一步的,根据配置文件读取填充预算和采样窗口包括:
Bc和Bs分别为客户端和代理服务端的填充开销预算,nc和ns分别表示两端注入的虚拟包数量,且nc服从1到Bc之间的均匀分布、ns服从1到Bs之间的均匀分布;
若服务器或服务器端的最大填充时间和最小填充时间为PTmax和PTmin,对于每条流量,客户端从PTmin和PTmax之间的均匀分布中采样填充窗口wc,即wc服从PTmin到PTmax之间的均匀分布;服务器端从PTmin和PTmax之间的均匀分布中采样填充窗口ws,即ws服从PTmin到PTmax之间的均匀分布服务器端同样地。
进一步的,客服端和代理服务端分别根据填充预算和采样窗口生成服从瑞利分布的数据包插入时间表,表示为:
Figure BDA0003925116890000021
其中,t表示时间戳,w表示采样窗口长度,w={wc,ws},wc表示客服端的采样窗口,ws表示代理客服端的采样窗口。
进一步的,数据包的噪声值的计算过程表示为:
Figure BDA0003925116890000022
其中,
Figure BDA0003925116890000023
为时间戳为t的数据包的噪声值;
Figure BDA0003925116890000024
表示G(t)时刻的噪声值;x[G(t)]表示时间戳为G(t)时的数据包大小;x[t]表示时间戳为t时的数据包大小;rt表示不同时刻从拉普拉斯分布采样得到的随机数。
进一步的,时间戳G(t)的计算包括:
Figure BDA0003925116890000031
其中,D(t)表示2除以时间戳t的最大幂,t=D(t)当且仅当t是2的幂。
进一步的,不同时刻从拉普拉斯分布采样得到的随机数rt表示为:
Figure BDA0003925116890000032
其中,Lap()表示拉普拉斯分布;ε表示隐私参数,将决定产生的噪声值的大小;D(t)表示2除以时间戳t的最大幂,t=D(t)当且仅当t是2的幂;
Figure BDA0003925116890000033
表示向下取整。
进一步的,根据该噪声值更改该数据包长度时,若产生的噪声为ρ,数据包大小为si,如果ρ>0,数据包大小填充至si+ρ;若ρ=0,添加虚拟包;若ρ<0,数据包大小将被减少为si-ρ,并且数据包的剩余部分将被缓冲到队列中,直到后续的真实或虚拟包在流量序列中可用。
进一步的,IAT倒计时结束后插入额外的虚拟数据包的长度从数据包长度矩阵中采样,虚拟包的时间戳等于当前流量时间戳加上采样得到的时间IAT,虚拟包的方向和上一个真实数据包的方向相同。
本发明能混淆原始网站的真实特征,提高了匿名网络中用户上网的安全性。
附图说明
图1为本发明中的整体流程示意图;
图2为实施例中有限状态机转换图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提出一种基于随机链路填充和差分隐私的流量混淆方法,具体包括以下步骤:
采集目标网站流量数据,生成到达间隔时间矩阵和数据包长度矩阵;
根据配置文件读取填充预算和采样窗口;
根据填充预算和采样窗口生成服从瑞利分布的数据包插入时间表;
计算数据包的噪声值,根据该噪声值更改该数据包长度;
根据时间表调度虚拟数据包,并采样IAT;
倒计时IAT,若倒计时过程中五数据包到来,则IAT倒计时结束后插入额外的虚拟数据包。
对流量分析攻击而言,数据包到达间隔时间和数据包大小都是攻击者用于分类的基本特征。此外,每个网页流量的前几秒(称为流的前域)泄漏了对流量分析极有用的特征。因此,本发明侧重于用虚拟数据包混淆前域的时间间隔特征,同时也考虑数据包长度信息带来的信息泄露问题。
如图1所示,本发明是一种基于随机链路填充和差分隐私的流量混淆方法,针对网络用户生成的网站流量进行混淆。首先从非用户目标网站抓取流量用作目标流量集,然后使用时间采样方法从目标流量集中获取所需的时间信息。然后根据用户配置信息得到填充开销预算和采样窗口,根据销预算和采样窗口生成服从瑞利分布的填充时间表,以此混淆流量前域的间隔时间特征,即给定一个真实或虚拟包Pi,设产生的噪声为ρ,数据包大小为si,如果ρ>0,数据包大小填充至si+ρ;若ρ=0,添加虚拟包;若ρ<0,数据包大小将被减少为si-ρ,并且数据包的剩余部分将被缓冲到队列中,直到后续的真实或虚拟包在流量序列中可用。填充时间表决定了在什么时刻插入虚拟数据包,但为了混淆后面较为明显的间隔时间特征,通过采样得到的时间信息来插入额外的虚拟包,以改变整个流量序列。
如图2所示,本发明通过一个有限状态机来描述整个流程,主要分成三个部分。首先是初始化模式,根据采集的流量生成流量时间间隔和长度特征矩阵,然后根据配置生成时间表。当有数据包来临时,先根据时间表调度虚拟数据包,然后计算噪声值,以填充数据包。最后根据采样得到的时间IAT决定是否插入额外的虚拟数据包。
在本实施例中,设T为目标网站生成的流量序列,给定一个m个可能的到达间隔时间IAT样本,将目标流量序列描述为一个列向量,概率质量函数X可表示为:X=[x1,x2,…,xm]T,其中xi是目标流量序列上第i个最大IAT的概率,i∈{1,2,...,m};同样地,给定一个n个可能的数据包大小的样本空间,L表示在n个大小上的概率质量函数,则L=[l1,l2,…,ln]T,其中xj是目标流量序列上第j个最大数据包的概率,j∈{1,2,...,n}。
本实施例设Bc和Bs分别代表客户端和代理服务端的填充开销预算,nc和ns分别表示两端注入的虚拟包数量,可以表示为:
Figure BDA0003925116890000051
即表示nc服从1到Bc之间的均匀分布
Figure BDA0003925116890000052
即表示ns服从1到Bs之间的均匀分布
Figure BDA0003925116890000053
若服务器或服务器端的最大填充时间和最小填充时间为PTmax和PTmin,对于每条流量,客户端从PTmin和PTmax之间的均匀分布中采样填充窗口wc,即wc服从PTmin到PTmax之间的均匀分布;同理,服务器端从PTmin和PTmax之间的均匀分布中采样填充窗口ws,即ws服从PTmin到PTmax之间的均匀分布服务器端同样地。
在对上述变量进行采样后,客户端和代理服务端生成各自的填充时间表,以调度虚拟数据包。生成的时间表服从瑞利分布,其概率密度函数为:
Figure BDA0003925116890000054
其中,t表示时间戳,w表示采样窗口长度,w={wc,ws},wc表示客服端的采样窗口,ws表示代理客服端的采样窗口;真实的数据包不会延迟且虚拟数据包将按时间表发送。
Figure BDA0003925116890000061
表示自然数,
Figure BDA0003925116890000062
表示2除以时间戳t的最大幂,t=D(t)当且仅当t是2的幂。d*-privacy在时间戳t时刻计算一个噪声值
Figure BDA0003925116890000067
具体表示如下:
Figure BDA0003925116890000063
其中
Figure BDA0003925116890000064
并且时间戳G(t)和不同时刻从拉普拉斯分布采样得到的随机数rt满足以下条件:
Figure BDA0003925116890000065
Figure BDA0003925116890000066
其中,其中,Lap()表示拉普拉斯分布;ε表示隐私参数,将决定产生的噪声值的大小。
到达间隔时间是一个独特的特征,到达间隔时间的差异将直接影响数据包的分布。为了尽可能减少混淆机制造成的延迟和带宽开销,我们需要用伪数据包来填充流量序列的间隔,从而使延迟最小化,避免影响真实数据包的传输。当接收到第一个真实包时,首先根据步骤S2产生的时间表调度虚拟数据包。然后采样得到到达间隔时间IAT,如果IAT结束之前无数据包到来,则再添加虚拟数据包,然后重新启动IAT采样。
在添加虚拟包时,生成的虚拟包由时间戳、真实包的方向和长度决定。在添加虚拟包之前,从LT中采样得到长度l,则本次添加的虚拟包长度为l。虚拟包的时间戳等于当前流量时间戳加上采样得到的时间IAT,虚拟包的方向和上一个真实数据包的方向相同。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (8)

1.一种基于随机链路填充和差分隐私的流量混淆方法,其特征在于,包括以下步骤:
采集目标网站流量数据,生成到达间隔时间矩阵和数据包长度矩阵;
根据配置文件读取填充预算和采样窗口;
根据填充预算和采样窗口生成服从瑞利分布的数据包插入时间表;
计算数据包的噪声值,根据该噪声值更改该数据包长度;
根据时间表调度虚拟数据包,并采样到达间隔时间;
倒计时到达间隔时间,若倒计时过程中无数据包到来,则到达间隔时间倒计时结束后插入额外的虚拟数据包。
2.根据权利要求1所述的一种基于随机链路填充和差分隐私的流量混淆方法,其特征在于,根据配置文件读取填充预算和采样窗口包括:
Bc和Bs分别为客户端和代理服务端的填充开销预算,nc和ns分别表示两端注入的虚拟包数量,且nc服从1到Bc之间的均匀分布、ns服从1到Bs之间的均匀分布;
若服务器或服务器端的最大填充时间和最小填充时间为PTmax和PTmin,对于每条流量,客户端从PTmin和PTmax之间的均匀分布中采样填充窗口wc,即wc服从PTmin到PTmax之间的均匀分布;服务器端从PTmin和PTmax之间的均匀分布中采样填充窗口ws,即ws服从PTmin到PTmax之间的均匀分布服务器端同样地。
3.根据权利要求1所述的一种基于随机链路填充和差分隐私的流量混淆方法,其特征在于,客服端和代理服务端分别根据填充预算和采样窗口生成服从瑞利分布的数据包插入时间表,表示为:
Figure FDA0003925116880000011
其中,t表示时间戳,w表示采样窗口长度,w={wc,ws},wc表示客服端的采样窗口,ws表示代理客服端的采样窗口。
4.根据权利要求1所述的一种基于随机链路填充和差分隐私的流量混淆方法,其特征在于,数据包的噪声值的计算过程表示为:
Figure FDA0003925116880000021
其中,
Figure FDA0003925116880000022
为时间戳为t的数据包的噪声值;
Figure FDA0003925116880000023
表示G(t)时刻的噪声值;x[G(t)]表示时间戳为G(t)时的数据包大小;x[t]表示时间戳为t时的数据包大小;rt表示不同时刻从拉普拉斯分布采样得到的随机数。
5.根据权利要求4所述的一种基于随机链路填充和差分隐私的流量混淆方法,其特征在于,时间戳G(t)的计算包括:
Figure FDA0003925116880000024
其中,D(t)表示2除以时间戳t的最大幂,t=D(t)当且仅当t是2的幂。
6.根据权利要求4所述的一种基于随机链路填充和差分隐私的流量混淆方法,其特征在于,不同时刻从拉普拉斯分布采样得到的随机数rt表示为:
Figure FDA0003925116880000025
其中,Lap()表示拉普拉斯分布;ε表示隐私参数;D(t)表示2除以时间戳t的最大幂,t=D(t)当且仅当t是2的幂;
Figure FDA0003925116880000026
表示向下取整。
7.根据权利要求1所述的一种基于随机链路填充和差分隐私的流量混淆方法,其特征在于,根据该噪声值更改该数据包长度时,若产生的噪声为ρ,数据包大小为si,如果ρ>0,数据包大小填充至si+ρ;若ρ=0,添加虚拟包;若ρ<0,数据包大小将被减少为si-ρ,并且数据包的剩余部分将被缓冲到队列中,直到后续的真实或虚拟包在流量序列中可用。
8.根据权利要求1所述的一种基于随机链路填充和差分隐私的流量混淆方法,其特征在于,IAT倒计时结束后插入额外的虚拟数据包的长度从数据包长度矩阵中采样,虚拟包的时间戳等于当前流量时间戳加上采样得到的时间IAT,虚拟包的方向和上一个真实数据包的方向相同。
CN202211371666.9A 2022-11-03 2022-11-03 一种基于随机链路填充和差分隐私的流量混淆方法 Pending CN115996138A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211371666.9A CN115996138A (zh) 2022-11-03 2022-11-03 一种基于随机链路填充和差分隐私的流量混淆方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211371666.9A CN115996138A (zh) 2022-11-03 2022-11-03 一种基于随机链路填充和差分隐私的流量混淆方法

Publications (1)

Publication Number Publication Date
CN115996138A true CN115996138A (zh) 2023-04-21

Family

ID=85991314

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211371666.9A Pending CN115996138A (zh) 2022-11-03 2022-11-03 一种基于随机链路填充和差分隐私的流量混淆方法

Country Status (1)

Country Link
CN (1) CN115996138A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016128265A1 (en) * 2015-02-13 2016-08-18 International Business Machines Corporation Traffic shape obfuscation when using an encrypted network connection
CN111611236A (zh) * 2020-05-28 2020-09-01 宁波和利时智能科技有限公司 一种数据分析方法及系统
CN111953670A (zh) * 2020-07-30 2020-11-17 江苏大学 基于Meek传输插件的自适应混淆方法、系统及计算机存储介质
CN113347156A (zh) * 2021-05-11 2021-09-03 江苏大学 一种网站指纹防御的智能流量混淆方法、系统及计算机存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016128265A1 (en) * 2015-02-13 2016-08-18 International Business Machines Corporation Traffic shape obfuscation when using an encrypted network connection
CN111611236A (zh) * 2020-05-28 2020-09-01 宁波和利时智能科技有限公司 一种数据分析方法及系统
CN111953670A (zh) * 2020-07-30 2020-11-17 江苏大学 基于Meek传输插件的自适应混淆方法、系统及计算机存储介质
CN113347156A (zh) * 2021-05-11 2021-09-03 江苏大学 一种网站指纹防御的智能流量混淆方法、系统及计算机存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王佳贺等: "差分隐私保护的Android应用流量行为混淆方法", 计算机工程与应用, vol. 56, no. 2, 14 January 2020 (2020-01-14), pages 68 - 75 *

Similar Documents

Publication Publication Date Title
Yu et al. Predicted packet padding for anonymous web browsing against traffic analysis attacks
Dubin et al. I know what you saw last minute—encrypted http adaptive video streaming title classification
CN113347156B (zh) 一种网站指纹防御的智能流量混淆方法、系统及计算机存储介质
Toubiana et al. Adnostic: Privacy preserving targeted advertising
CN103957436B (zh) 一种基于ott业务的视频防盗链方法
CN109840425B (zh) 一种文件加密的方法和装置
Zhang et al. A sensitive network jitter measurement for covert timing channels over interactive traffic
Pulls et al. Website fingerprinting with website oracles
KR102202473B1 (ko) 동적 데이터 저장을 위한 시스템 및 방법
Tan et al. A novel time series approach for predicting the long-term popularity of online videos
CN110866263B (zh) 一种可对抗纵向攻击的用户隐私信息保护方法及系统
CN112836232B (zh) 网页指纹识别背景下基于k匿名的动态网页隐私保护方法
CN113918977A (zh) 基于物联网和大数据分析的用户信息传输装置
CN115996138A (zh) 一种基于随机链路填充和差分隐私的流量混淆方法
CN115865534B (zh) 一种基于恶意加密流量检测方法、系统、装置及介质
Luo et al. RBP: a website fingerprinting obfuscation method against intelligent fingerprinting attacks
CN116743743A (zh) 一种元宇宙数据分享方法及系统
Song et al. Vtim: Video title identification using open metadata
CN117355834A (zh) 使用隐私信息检索和安全多方计算的隐私安全批量检索
Prajapati et al. Novel algorithms for protective digital privacy
Fu et al. Network storage covert channel detection based on data joint analysis
Chen et al. An application-level data transparent authentication scheme without communication overhead
Niu et al. Network steganography based on traffic behavior in dynamically changing wireless sensor networks
Neundorfer et al. Modeling Network Traffic via Identifying Encrypted Packets to Detect Stepping-Stone Intrusion Under the Framework of Heterogonous Packet Encryption
Mao et al. A covert communication method adapted to social media based on time modulation of bullet comments

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20240521

Address after: 1003, Building A, Zhiyun Industrial Park, No. 13 Huaxing Road, Henglang Community, Dalang Street, Longhua District, Shenzhen City, Guangdong Province, 518000

Applicant after: Shenzhen Wanzhida Technology Transfer Center Co.,Ltd.

Country or region after: China

Address before: 400065 Chongwen Road, Nanshan Street, Nanan District, Chongqing

Applicant before: CHONGQING University OF POSTS AND TELECOMMUNICATIONS

Country or region before: China