CN111835747A - 一种协议伪装方法、系统、计算机设备及存储介质 - Google Patents

一种协议伪装方法、系统、计算机设备及存储介质 Download PDF

Info

Publication number
CN111835747A
CN111835747A CN202010644431.7A CN202010644431A CN111835747A CN 111835747 A CN111835747 A CN 111835747A CN 202010644431 A CN202010644431 A CN 202010644431A CN 111835747 A CN111835747 A CN 111835747A
Authority
CN
China
Prior art keywords
flow
decoder
distribution
protocol
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010644431.7A
Other languages
English (en)
Inventor
黎艺泉
孙恩博
丁建伟
陈周国
郭宇斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 30 Research Institute
Original Assignee
CETC 30 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 30 Research Institute filed Critical CETC 30 Research Institute
Priority to CN202010644431.7A priority Critical patent/CN111835747A/zh
Publication of CN111835747A publication Critical patent/CN111835747A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/04Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
    • H04L63/0407Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the identity of one or more communicating identities is hidden
    • H04L63/0421Anonymous communication, i.e. the party's identifiers are hidden from the other party or parties, e.g. using an anonymizer

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Hardware Design (AREA)
  • Artificial Intelligence (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Mathematical Physics (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明涉及网络安全技术领域,本发明公开了一种协议伪装方法、系统、计算机设备及存储介质,本发明根据网络流量属性特征分析,选取指定协议网络流量的长度特征;使用变分自编码器进行机器学习,变分自编码器包括编码器和解码器,编码器计算输入样本的均值和方差,并对计算得到的结果加上噪声,再通过解码器生成伪装流量特征;计算生成样本与原始输入样本之间的差异,并反馈到解码器与噪声强度上,调整解码器与噪声的参数,优化解码器;经过多次迭代后,输出最终训练得到的最优生成网络流量分布。本发明在提高准确度的同时,引入标准高斯分布的约束,使编码器更具有鲁棒性,能够自动生成与正常网络流量不可区分的伪装流量。

Description

一种协议伪装方法、系统、计算机设备及存储介质
技术领域
本发明涉及网络安全技术领域,尤其涉及一种协议伪装方法、系统、计算机设备及存储介质。
背景技术
随着互联网用户隐私保护意识的增强,对于网络安全的需求越来越强烈,匿名通信技术开始发展起来。但是在通信过程中,匿名通信流量会暴露出一些比较明显的特征,攻击者会使用流量分析等手段对加密通信流量进行分类识别提取,进而对这一类特殊流量进行网络攻击。为了提高匿名通信的隐匿性和可靠性,用于抵抗流量分析检测的协议伪装技术应运而生。协议伪装技术能够通过协议混淆和协议变种,将加密网络流量变形为正常网络流量,从而抵御流量分析攻击。然而,现有的协议伪装技术依赖于固定的协议流量特征,只能针对某一特征属性进行静态伪装,无法灵活应对复杂多变的网络环境,一旦被流量分析检测技术发现,就会完全丧失伪装的能力。
网络安全领域中,利用生成模型抵抗恶意流量分析,动态地进行协议伪装的技术,目前在学术界和工业界的研究处于起步阶段。生成模型与传统的机器学习模型不同之处在于不再是学习样本的个体,而是学习样本某种特征的分布规律。变分自编码器(variational auto-encoder,VAE)作为深度生成模型中的一种代表,所训练出来的自编码器不仅具有重构样本的能力,而且由于在训练的过程中引入噪声的影响,并加入了一定的约束条件,使其能够具有仿照样本的能力,应用到匿名通信流量伪装技术中,可以动态地生成与正常网络流量不可区分的伪装流量。
发明内容
针对匿名通信系统所面对的流量分析攻击技术,本发明提出一种协议伪装方法、系统、计算机设备及存储介质,通过变分自编码器这一生成模型对指定协议网络流量样本进行分析,学习该指定协议的传输特征,得到目标网络流量特征的分布规律,根据这一规律将传输内容变形,最终用于网络隐匿通信中。
本发明的一种协议伪装方法,包括以下步骤:
S1.根据网络流量属性特征分析,选取指定协议网络流量的长度特征;
S2.使用变分自编码器进行机器学习,所述变分自编码器包括编码器和解码器,所述编码器计算输入样本的均值和方差,并对计算得到的结果加上噪声,使所述解码器能够对噪声具有鲁棒性,再通过所述解码器生成伪装流量特征;
S3.计算生成样本与原始输入样本之间的差异,并反馈到所述解码器与噪声强度上,调整所述解码器与噪声的参数,优化所述解码器;经过多次迭代后,输出最终训练得到的最优生成网络流量分布。
进一步的,步骤S1中,先对所述指定协议网络流量进行预处理,所述预处理包括以下步骤:
S11.将收集到的指定协议网络流量原始数据进行粗处理,把具有相同IP五元组且间隔时间小于流超时时间的流量包聚合成流信息;
S12.计算每条网络流量的持续时间和包个数,由于网络中大部分负载都是由持续时间较长的大流承载,因此只选取持续时间长和包个数多的流量样本;
S13.计算所选取的每条网络流量的初始属性特征,根据匿名通信协议的匿名性,只记录发出包流量特征,包括每个发出包的字节数以及发出包时间间隔,并统计总的发出包个数以及流量持续时间;
S14.将每条流量的数据进行归一化,并将每条流量的发出包序列拟合为时间t∈[0,1]之间的分布曲线,每个时间点上的大小为包的字节数;
S15.对拟合得到的分布曲线进行均匀采样,每条流量采样点数相同,采样率尽可能大,作为所述变分自编码器的输入。
进一步的,步骤S2包括以下子步骤:
S21.输入采样得到的采样流量特征X=(X1,X2,…,Xn),计算每个样本的均值E=(μ12,…,μn)和方差D=(σ12,…,σn),并得到相应的正态分布P=(P1,P2,…,P3),Xi~Pi(μ,σ2);
S22.通过正态分布P进行数据编码,从正态分布P中重新得到采样变量Z=(Z1,Z2,…,Zn);
S23.将采样变量Z输入所述解码器,生成样本
Figure BDA0002572620410000031
进一步的,步骤S3包括以下子步骤:
S31.计算生成样本
Figure BDA0002572620410000032
与采样流量特征X之间的损失,以及与正态分布P和标准高斯分布N(0,1)之间的KL散度即相对熵,刻画生成的数据分布与标准高斯分布之间的距离;
S32.通过随机梯度下降法来实现所述编码器参数的优化,如果所述解码器生成的样本
Figure BDA0002572620410000033
与采样流量特征X的重构误差较小,而KL散度值较大时,则对样本方差D=(σ12,…,σn)加入噪声,使其得到的分布更接近标准高斯分布;如果KL散度值较小,重构误差较大时,说明加入噪声太大,拟合困难,则减小噪声,进一步训练所述解码器;
S33.通过神经网络进行迭代学习,找到重构误差最小,且得到的分布最接近标准高斯分布的最优解码器,即可输出学习得到的最优生成伪装流量样本分布;
S34.通过指定协议网络流量中总的输出包个数,即可从生成流量样本分布中采样得到伪装流量样本格式;
S35.将传输内容根据生成的伪装流量模式变形,得到最终用于网络传输的匿名伪装通信流量。
本发明的一种协议伪装系统,包括:
预处理模块:根据网络流量属性特征分析,选取指定协议网络流量的长度特征;
变分自编码器:进行机器学习,所述变分自编码器包括编码器和解码器,所述编码器用于计算输入样本的均值和方差,并对计算得到的结果加上噪声,使所述解码器能够对噪声具有鲁棒性,所述解码器用于生成伪装流量特征;
控制处理模块:计算生成样本与原始输入样本之间的差异,并反馈到所述解码器与噪声强度上,调整所述解码器与噪声的参数,优化所述解码器;经过多次迭代后,输出最终训练得到的最优生成网络流量分布。
进一步的,所述预处理模块能够对所述指定协议网络流量进行预处理,所述预处理包括以下步骤:
S11.将收集到的指定协议网络流量原始数据进行粗处理,把具有相同IP五元组且间隔时间小于流超时时间的流量包聚合成流信息;
S12.计算每条网络流量的持续时间和包个数,由于网络中大部分负载都是由持续时间较长的大流承载,因此只选取持续时间长和包个数多的流量样本;
S13.计算所选取的每条网络流量的初始属性特征,根据匿名通信协议的匿名性,只记录发出包流量特征,包括每个发出包的字节数以及发出包时间间隔,并统计总的发出包个数以及流量持续时间;
S14.将每条流量的数据进行归一化,并将每条流量的发出包序列拟合为时间t∈[0,1]之间的分布曲线,每个时间点上的大小为包的字节数;
S15.对拟合得到的分布曲线进行均匀采样,每条流量采样点数相同,采样率尽可能大,作为所述变分自编码器的输入。
进一步的,所述变分自编码器能够实现以下步骤:
S21.输入采样得到的采样流量特征X=(X1,X2,…,Xn),计算每个样本的均值E=(μ12,…,μn)和方差D=(σ12,…,σn),并得到相应的正态分布P=(P1,P2,…,P3),Xi~Pi(μ,σ2);
S22.通过正态分布P进行数据编码,从正态分布P中重新得到采样变量Z=(Z1,Z2,…,Zn);
S23.将采样变量Z输入所述解码器,生成样本
Figure BDA0002572620410000051
进一步的,所述控制处理模块能够实现以下步骤:
S31.计算生成样本
Figure BDA0002572620410000052
与采样流量特征X之间的损失,以及与正态分布P和标准高斯分布N(0,1)之间的KL散度即相对熵,刻画生成的数据分布与标准高斯分布之间的距离;
S32.通过随机梯度下降法来实现所述编码器参数的优化,如果所述解码器生成的样本
Figure BDA0002572620410000053
与采样流量特征X的重构误差较小,而KL散度值较大时,则对样本方差D=(σ12,…,σn)加入噪声,使其得到的分布更接近标准高斯分布;如果KL散度值较小,重构误差较大时,说明加入噪声太大,拟合困难,则减小噪声,进一步训练所述解码器;
S33.通过神经网络进行迭代学习,找到重构误差最小,且得到的分布最接近标准高斯分布的最优解码器,即可输出学习得到的最优生成伪装流量样本分布;
S34.通过指定协议网络流量中总的输出包个数,即可从生成流量样本分布中采样得到伪装流量样本格式;
S35.将传输内容根据生成的伪装流量模式变形,得到最终用于网络传输的匿名伪装通信流量。
本发明的一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时能够实现本发明的协议伪装方法。
本发明的一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时能够实现本发明的协议伪装方法。
本发明的有益效果在于:
本发明通过生成模型中的变分自编码器,捕捉指定协议网络流量特征之间的相关性,输入可以观测到的目标协议网络流量,使用机器学习来计算这些样本的特征近似分布,根据特征近似分布规律将隐匿通信传输内容变形,从而得到与目标协议网络流量不可区分的匿名通信伪装流量,可实现以下有益效果:
(1)使用生成模型中的变分自编码器学习正常网络流量特征分布,在提高准确度的同时,引入标准高斯分布的约束,使编码器更具有鲁棒性,能够自动生成与正常网络流量不可区分的伪装流量;
(2)可以指定想要模仿的目标网络协议特征,动态地进行匿名通信流量伪装。
附图说明
图1是本发明的协议伪装方法示意图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现说明本发明的具体实施方式。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明,即所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
本实施例提供了一种协议伪装方法,如图1所示,包括以下步骤:
S1.根据网络流量属性特征分析,选取指定协议网络流量的长度特征;
S2.使用变分自编码器进行机器学习,变分自编码器包括编码器和解码器,编码器计算输入样本的均值和方差,并对计算得到的结果加上噪声,使解码器能够对噪声具有鲁棒性,再通过解码器生成伪装流量特征;
S3.计算生成样本与原始输入样本之间的差异,并反馈到解码器与噪声强度上,调整解码器与噪声的参数,优化解码器;经过多次迭代后,输出最终训练得到的最优生成网络流量分布。
在本发明的一个优选实施例中,步骤S1中,先对指定协议网络流量进行预处理,预处理包括以下步骤:
S11.将收集到的指定协议网络流量原始数据进行粗处理,把具有相同IP五元组且间隔时间小于流超时时间的流量包聚合成流信息;
S12.计算每条网络流量的持续时间和包个数,由于网络中大部分负载都是由持续时间较长的大流承载,因此只选取持续时间长和包个数多的流量样本;具体的,可选取持续时间大于5分钟,包个数大于10个的流量样本;
S13.计算所选取的每条网络流量的初始属性特征,根据匿名通信协议的匿名性,只记录发出包流量特征,包括每个发出包的字节数以及发出包时间间隔,并统计总的发出包个数以及流量持续时间;
S14.将每条流量的数据进行归一化,并将每条流量的发出包序列拟合为时间t∈[0,1]之间的分布曲线,每个时间点上的大小为包的字节数;
S15.对拟合得到的分布曲线进行均匀采样,每条流量采样点数相同,采样率尽可能大,作为变分自编码器的输入。
在本发明的一个优选实施例中,步骤S2包括以下子步骤:
S21.输入采样得到的采样流量特征X=(X1,X2,…,Xn),计算每个样本的均值E=(μ12,…,μn)和方差D=(σ12,…,σn),并得到相应的正态分布P=(P1,P2,…,P3),Xi~Pi(μ,σ2);
S22.通过正态分布P进行数据编码,从正态分布P中重新得到采样变量Z=(Z1,Z2,…,Zn);
S23.将采样变量Z输入解码器,生成样本
Figure BDA0002572620410000081
在本发明的一个优选实施例中,步骤S3包括以下子步骤:
S31.计算生成样本
Figure BDA0002572620410000082
与采样流量特征X之间的损失,以及与正态分布P和标准高斯分布N(0,1)之间的KL散度即相对熵,刻画生成的数据分布与标准高斯分布之间的距离;
S32.通过随机梯度下降法来实现编码器参数的优化,如果解码器生成的样本
Figure BDA0002572620410000083
与采样流量特征X的重构误差较小,而KL散度值较大时,则对样本方差D=(σ12,…,σn)加入噪声,使其得到的分布更接近标准高斯分布;如果KL散度值较小,重构误差较大时,说明加入噪声太大,拟合困难,则减小噪声,进一步训练解码器;
S33.通过神经网络进行迭代学习,找到重构误差最小,且得到的分布最接近标准高斯分布的最优解码器,即可输出学习得到的最优生成伪装流量样本分布;
S34.通过指定协议网络流量中总的输出包个数,即可从生成流量样本分布中采样得到伪装流量样本格式;
S35.将传输内容根据生成的伪装流量模式变形,得到最终用于网络传输的匿名伪装通信流量。
本实施例提供了一种协议伪装系统,包括:
预处理模块:根据网络流量属性特征分析,选取指定协议网络流量的长度特征;
变分自编码器:进行机器学习,变分自编码器包括编码器和解码器,编码器用于计算输入样本的均值和方差,并对计算得到的结果加上噪声,使解码器能够对噪声具有鲁棒性,解码器用于生成伪装流量特征;
控制处理模块:计算生成样本与原始输入样本之间的差异,并反馈到解码器与噪声强度上,调整解码器与噪声的参数,优化解码器;经过多次迭代后,输出最终训练得到的最优生成网络流量分布。
在本发明的一个优选实施例中,预处理模块能够对指定协议网络流量进行预处理,预处理包括以下步骤:
S11.将收集到的指定协议网络流量原始数据进行粗处理,把具有相同IP五元组且间隔时间小于流超时时间的流量包聚合成流信息;
S12.计算每条网络流量的持续时间和包个数,由于网络中大部分负载都是由持续时间较长的大流承载,因此只选取持续时间长和包个数多的流量样本;具体的,可选取持续时间大于5分钟,包个数大于10个的流量样本;
S13.计算所选取的每条网络流量的初始属性特征,根据匿名通信协议的匿名性,只记录发出包流量特征,包括每个发出包的字节数以及发出包时间间隔,并统计总的发出包个数以及流量持续时间;
S14.将每条流量的数据进行归一化,并将每条流量的发出包序列拟合为时间t∈[0,1]之间的分布曲线,每个时间点上的大小为包的字节数;
S15.对拟合得到的分布曲线进行均匀采样,每条流量采样点数相同,采样率尽可能大,作为变分自编码器的输入。
在本发明的一个优选实施例中,变分自编码器能够实现以下步骤:
S21.输入采样得到的采样流量特征X=(X1,X2,…,Xn),计算每个样本的均值E=(μ12,…,μn)和方差D=(σ12,…,σn),并得到相应的正态分布P=(P1,P2,…,P3),Xi~Pi(μ,σ2);
S22.通过正态分布P进行数据编码,从正态分布P中重新得到采样变量Z=(Z1,Z2,…,Zn);
S23.将采样变量Z输入解码器,生成样本
Figure BDA0002572620410000101
在本发明的一个优选实施例中,控制处理模块能够实现以下步骤:
S31.计算生成样本
Figure BDA0002572620410000102
与采样流量特征X之间的损失,以及与正态分布P和标准高斯分布N(0,1)之间的KL散度即相对熵,刻画生成的数据分布与标准高斯分布之间的距离;
S32.通过随机梯度下降法来实现编码器参数的优化,如果解码器生成的样本
Figure BDA0002572620410000103
与采样流量特征X的重构误差较小,而KL散度值较大时,则对样本方差D=(σ12,…,σn)加入噪声,使其得到的分布更接近标准高斯分布;如果KL散度值较小,重构误差较大时,说明加入噪声太大,拟合困难,则减小噪声,进一步训练解码器;
S33.通过神经网络进行迭代学习,找到重构误差最小,且得到的分布最接近标准高斯分布的最优解码器,即可输出学习得到的最优生成伪装流量样本分布;
S34.通过指定协议网络流量中总的输出包个数,即可从生成流量样本分布中采样得到伪装流量样本格式;
S35.将传输内容根据生成的伪装流量模式变形,得到最终用于网络传输的匿名伪装通信流量。
以上所述仅是本发明的优选实施方式,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (10)

1.一种协议伪装方法,其特征在于,包括以下步骤:
S1.根据网络流量属性特征分析,选取指定协议网络流量的长度特征;
S2.使用变分自编码器进行机器学习,所述变分自编码器包括编码器和解码器,所述编码器计算输入样本的均值和方差,并对计算得到的结果加上噪声,使所述解码器能够对噪声具有鲁棒性,再通过所述解码器生成伪装流量特征;
S3.计算生成样本与原始输入样本之间的差异,并反馈到所述解码器与噪声强度上,调整所述解码器与噪声的参数,优化所述解码器;经过多次迭代后,输出最终训练得到的最优生成网络流量分布。
2.根据权利要求1所述的一种协议伪装方法,其特征在于,步骤S1中,先对所述指定协议网络流量进行预处理,所述预处理包括以下步骤:
S11.将收集到的指定协议网络流量原始数据进行粗处理,把具有相同IP五元组且间隔时间小于流超时时间的流量包聚合成流信息;
S12.计算每条网络流量的持续时间和包个数,由于网络中大部分负载都是由持续时间较长的大流承载,因此只选取持续时间长和包个数多的流量样本;
S13.计算所选取的每条网络流量的初始属性特征,根据匿名通信协议的匿名性,只记录发出包流量特征,包括每个发出包的字节数以及发出包时间间隔,并统计总的发出包个数以及流量持续时间;
S14.将每条流量的数据进行归一化,并将每条流量的发出包序列拟合为时间t∈[0,1]之间的分布曲线,每个时间点上的大小为包的字节数;
S15.对拟合得到的分布曲线进行均匀采样,每条流量采样点数相同,采样率尽可能大,作为所述变分自编码器的输入。
3.根据权利要求2所述的一种协议伪装方法,其特征在于,步骤S2包括以下子步骤:
S21.输入采样得到的采样流量特征X=(X1,X2,…,Xn),计算每个样本的均值E=(μ12,…,μn)和方差D=(σ12,…,σn),并得到相应的正态分布P=(P1,P2,…,P3),Xi~Pi(μ,σ2);
S22.通过正态分布P进行数据编码,从正态分布P中重新得到采样变量Z=(Z1,Z2,…,Zn);
S23.将采样变量Z输入所述解码器,生成样本
Figure FDA0002572620400000021
4.根据权利要求3所述的一种协议伪装方法,其特征在于,步骤S3包括以下子步骤:
S31.计算生成样本
Figure FDA0002572620400000022
与采样流量特征X之间的损失,以及与正态分布P和标准高斯分布N(0,1)之间的KL散度即相对熵,刻画生成的数据分布与标准高斯分布之间的距离;
S32.通过随机梯度下降法来实现所述编码器参数的优化,如果所述解码器生成的样本
Figure FDA0002572620400000023
与采样流量特征X的重构误差较小,而KL散度值较大时,则对样本方差D=(σ12,…,σn)加入噪声,使其得到的分布更接近标准高斯分布;如果KL散度值较小,重构误差较大时,说明加入噪声太大,拟合困难,则减小噪声,进一步训练所述解码器;
S33.通过神经网络进行迭代学习,找到重构误差最小,且得到的分布最接近标准高斯分布的最优解码器,即可输出学习得到的最优生成伪装流量样本分布;
S34.通过指定协议网络流量中总的输出包个数,即可从生成流量样本分布中采样得到伪装流量样本格式;
S35.将传输内容根据生成的伪装流量模式变形,得到最终用于网络传输的匿名伪装通信流量。
5.一种协议伪装系统,其特征在于,包括:
预处理模块:根据网络流量属性特征分析,选取指定协议网络流量的长度特征;
变分自编码器:进行机器学习,所述变分自编码器包括编码器和解码器,所述编码器用于计算输入样本的均值和方差,并对计算得到的结果加上噪声,使所述解码器能够对噪声具有鲁棒性,所述解码器用于生成伪装流量特征;
控制处理模块:计算生成样本与原始输入样本之间的差异,并反馈到所述解码器与噪声强度上,调整所述解码器与噪声的参数,优化所述解码器;经过多次迭代后,输出最终训练得到的最优生成网络流量分布。
6.根据权利要求5所述的一种协议伪装系统,其特征在于,所述预处理模块能够对所述指定协议网络流量进行预处理,所述预处理包括以下步骤:
S11.将收集到的指定协议网络流量原始数据进行粗处理,把具有相同IP五元组且间隔时间小于流超时时间的流量包聚合成流信息;
S12.计算每条网络流量的持续时间和包个数,由于网络中大部分负载都是由持续时间较长的大流承载,因此只选取持续时间长和包个数多的流量样本;
S13.计算所选取的每条网络流量的初始属性特征,根据匿名通信协议的匿名性,只记录发出包流量特征,包括每个发出包的字节数以及发出包时间间隔,并统计总的发出包个数以及流量持续时间;
S14.将每条流量的数据进行归一化,并将每条流量的发出包序列拟合为时间t∈[0,1]之间的分布曲线,每个时间点上的大小为包的字节数;
S15.对拟合得到的分布曲线进行均匀采样,每条流量采样点数相同,采样率尽可能大,作为所述变分自编码器的输入。
7.根据权利要求6所述的一种协议伪装系统,其特征在于,所述变分自编码器能够实现以下步骤:
S21.输入采样得到的采样流量特征X=(X1,X2,…,Xn),计算每个样本的均值E=(μ12,…,μn)和方差D=(σ12,…,σn),并得到相应的正态分布P=(P1,P2,…,P3),Xi~Pi(μ,σ2);
S22.通过正态分布P进行数据编码,从正态分布P中重新得到采样变量Z=(Z1,Z2,…,Zn);
S23.将采样变量Z输入所述解码器,生成样本
Figure FDA0002572620400000041
8.根据权利要求7所述的一种协议伪装系统,其特征在于,所述控制处理模块能够实现以下步骤:
S31.计算生成样本
Figure FDA0002572620400000042
与采样流量特征X之间的损失,以及与正态分布P和标准高斯分布N(0,1)之间的KL散度即相对熵,刻画生成的数据分布与标准高斯分布之间的距离;
S32.通过随机梯度下降法来实现所述编码器参数的优化,如果所述解码器生成的样本
Figure FDA0002572620400000043
与采样流量特征X的重构误差较小,而KL散度值较大时,则对样本方差D=(σ12,…,σn)加入噪声,使其得到的分布更接近标准高斯分布;如果KL散度值较小,重构误差较大时,说明加入噪声太大,拟合困难,则减小噪声,进一步训练所述解码器;
S33.通过神经网络进行迭代学习,找到重构误差最小,且得到的分布最接近标准高斯分布的最优解码器,即可输出学习得到的最优生成伪装流量样本分布;
S34.通过指定协议网络流量中总的输出包个数,即可从生成流量样本分布中采样得到伪装流量样本格式;
S35.将传输内容根据生成的伪装流量模式变形,得到最终用于网络传输的匿名伪装通信流量。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-4任一项所述方法的步骤。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-4任一项所述方法的步骤。
CN202010644431.7A 2020-07-07 2020-07-07 一种协议伪装方法、系统、计算机设备及存储介质 Pending CN111835747A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010644431.7A CN111835747A (zh) 2020-07-07 2020-07-07 一种协议伪装方法、系统、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010644431.7A CN111835747A (zh) 2020-07-07 2020-07-07 一种协议伪装方法、系统、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN111835747A true CN111835747A (zh) 2020-10-27

Family

ID=72901160

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010644431.7A Pending CN111835747A (zh) 2020-07-07 2020-07-07 一种协议伪装方法、系统、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN111835747A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109067758A (zh) * 2018-08-23 2018-12-21 江苏大学 一种基于多路径的sdn网络数据传输隐私保护系统及其方法
CN109886388A (zh) * 2019-01-09 2019-06-14 平安科技(深圳)有限公司 一种基于变分自编码器的训练样本数据扩充方法和装置
US10417556B1 (en) * 2017-12-07 2019-09-17 HatchB Labs, Inc. Simulation-based controls optimization using time series data forecast

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10417556B1 (en) * 2017-12-07 2019-09-17 HatchB Labs, Inc. Simulation-based controls optimization using time series data forecast
CN109067758A (zh) * 2018-08-23 2018-12-21 江苏大学 一种基于多路径的sdn网络数据传输隐私保护系统及其方法
CN109886388A (zh) * 2019-01-09 2019-06-14 平安科技(深圳)有限公司 一种基于变分自编码器的训练样本数据扩充方法和装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
FAN ZHANG, WENBO HE AND XUE LIU: "Defending Against Traffic Analysis in Wireless Networks through Traffic Reshaping", 《2011 31ST INTERNATIONAL CONFERENCE ON DISTRIBUTED COMPUTING SYSTEMS》 *
JIE LI, LU ZHOU, HUAXIN LI, LU YAN, HAOJIN ZHU: "Dynamic Traffic Feature Camouflaging via Generative Adversarial Networks.pdf", 《2019 IEEE CONFERENCE ON COMMUNICATIONS AND NETWORK SECURITY (CNS)》 *
张连成: "网络流量伪装技术研究", 《计算机应用研究》 *
李杰: "基于生成对抗网络的网络流量特征伪装技术", 《计算机工程》 *
苏剑林: "变分自编码器VAE:原来是这么一回事", 《搜狐平台》 *

Similar Documents

Publication Publication Date Title
Wu et al. A novel convolutional neural network for image steganalysis with shared normalization
WO2018223133A1 (en) Copula optimization method and apparatus for identifying and detecting threats to an enterprise or e-commerce system and other applications
Barse et al. Synthesizing test data for fraud detection systems
CN111614599B (zh) 基于人工智能的webshell检测方法和装置
CN106899440B (zh) 一种面向云计算的网络入侵检测方法及系统
US10187412B2 (en) Robust representation of network traffic for detecting malware variations
CN110213227A (zh) 一种网络数据流检测方法及装置
Truong-Huu et al. An empirical study on unsupervised network anomaly detection using generative adversarial networks
CN108509793A (zh) 一种基于用户行为日志数据的用户异常行为检测方法及装置
CN113468071A (zh) 模糊测试用例生成方法、系统、计算机设备及存储介质
CN112163488B (zh) 一种视频虚假人脸检测方法及电子装置
CN112036518B (zh) 基于数据包字节分布的应用程序流量分类方法和存储介质
CN112613599A (zh) 一种基于生成对抗网络过采样的网络入侵检测方法
CN110545284A (zh) 一种对抗性网络的域名检测方法及系统
CN110351303B (zh) 一种DDoS特征提取方法及装置
US11790252B2 (en) Apparatus and method for preprocessing security log
CN112163493A (zh) 一种视频虚假人脸检测方法及电子装置
CN111182002A (zh) 基于http首个问答包聚类分析的僵尸网络检测装置
CN114710417A (zh) 基于格拉姆角场变换的Tor用户访问网站识别方法及系统
CN115842636A (zh) 一种基于时序特征的网络异常行为监测方法以及装置
CN111835747A (zh) 一种协议伪装方法、系统、计算机设备及存储介质
CN116112287B (zh) 基于时空关联的网络攻击组织追踪方法与装置
CN115834251B (zh) 基于超图Transformer威胁狩猎模型建立方法
CN108173818A (zh) 一种基于Proxy日志数据的网络安全威胁分析方法及系统
CN115438753B (zh) 一种基于生成的衡量联邦学习协议数据安全性的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20201027

RJ01 Rejection of invention patent application after publication