CN117240560A - 一种基于gan的高仿真蜜罐实现方法及系统 - Google Patents

一种基于gan的高仿真蜜罐实现方法及系统 Download PDF

Info

Publication number
CN117240560A
CN117240560A CN202311240301.7A CN202311240301A CN117240560A CN 117240560 A CN117240560 A CN 117240560A CN 202311240301 A CN202311240301 A CN 202311240301A CN 117240560 A CN117240560 A CN 117240560A
Authority
CN
China
Prior art keywords
gan
honeypot
simulation
request
response
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311240301.7A
Other languages
English (en)
Inventor
何慧
汤浩
蒙俊雄
张伟哲
郝萌
杨洪伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN202311240301.7A priority Critical patent/CN117240560A/zh
Publication of CN117240560A publication Critical patent/CN117240560A/zh
Pending legal-status Critical Current

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于GAN的高仿真蜜罐实现方法及系统,涉及网络安全技术领域。本发明的技术要点包括:获取攻击者请求报文;利用基于GAN的高仿真蜜罐对攻击者请求产生正确应答,进而生成响应报文;其中,基于GAN的高仿真蜜罐依靠响应生成模型生成响应报文,所述响应生成模型的构建包括数据预处理与模型训练;数据预处理的步骤包括:特定协议流量的提取;提取数据包的六元组;以流划分数据包集合;特定协议数据载荷提取;请求载荷分类;响应载荷编码。本发明提高了平均交互次数且缓解了因服务模拟不到位造成无法深入交互的问题,具有较高仿真度。

Description

一种基于GAN的高仿真蜜罐实现方法及系统
技术领域
本发明涉及网络安全技术领域,具体涉及一种基于GAN的高仿真蜜罐实现方法及系统。
背景技术
随着物联网(IoT,Internet ofThings)步入智能化阶段,推动着人们的生产和生活朝着便捷化与智能化发展。然而,物联网在快速发展的同时,其本身的特点也带来了诸多安全隐患。物联网设备计算资源和能力较低,因此导致物联网设备自身的安全能力较弱。其次,终端设备直接暴露于公共网络之中,攻击者容易展开攻击。另外,由于许多物联网场景下都需要多个设备相互依赖为客户提供服务,当单点存在威胁时,其相互依赖的节点也会遭受威胁。因此,物联网设备的这些脆弱性导致了诸如僵尸网络、高持续性威胁、中间人攻击等安全问题。其中,物联网僵尸网络的规模最大,造成的影响最为广泛。从2016年首次发现Mirai以来,物联网僵尸网络犹如雨后春笋般爆发。这些物联网僵尸网络在攻击范围、感染规模、入侵手段等方面都持续地更新。蜜罐技术是一种主动防御手段,通过引诱物联网僵尸网络攻击自己,从而捕获攻击信息。结合其他威胁分析技术(如物联网僵尸网络检测),就能在发现网络威胁方面发挥着巨大作用。
蜜罐根据设计与实现方式可以分为三种:软件蜜罐、物理蜜罐和混合蜜罐。软件蜜罐通常是利用模拟协议服务的方式或模拟仿真物理系统的方式设计实现的蜜罐,可以引诱到针对服务进行攻击的攻击者。然而,软件蜜罐存在服务模拟能力或系统建模能力不佳的问题,在模拟不到位的服务中交互能力偏低,无法与攻击者进行深层次交互,从而导致捕获的攻击数据价值偏低。物理蜜罐采用纯物理设备进行设计与实现,相比于服务模拟的方式,物理蜜罐一般具有较高的仿真度,能与攻击者进行更深层次的交互。但物理蜜罐存在部署与维护成本过高的问题,不适宜大规模部署。混合蜜罐采用“前端-后台”的架构,将不同实现方式或不同交互级别的蜜罐结合起来,以实现蜜罐的灵活性和真实度。但混合蜜罐流量转发机制可能会被攻击者识别与检测。
发明内容
为此,本发明提出一种基于生成对抗网络GAN的高仿真蜜罐实现方法及系统,以力图解决或者至少缓解上面存在的至少一个问题。
根据本发明的一方面,提出一种基于GAN的高仿真蜜罐实现方法,该方法包括以下步骤:
获取攻击者请求报文;
利用基于GAN的高仿真蜜罐对攻击者请求产生正确应答,进而生成响应报文;其中,基于GAN的高仿真蜜罐依靠响应生成模型生成响应报文,所述响应生成模型的构建包括数据预处理与模型训练。
进一步地,所述数据预处理的步骤包括:
Step1:特定协议流量的提取;
Step2:提取数据包的六元组;
Step3:以流划分数据包集合;
Step4:特定协议数据载荷提取;
Step5:请求载荷分类;
Step6:响应载荷编码。
进一步地,所述特定协议流量的提取按照以下过程提取:使用特定协议的服务端口对其他协议流量进行过滤,过滤规则是若数据包传输层上的目的端口号或者源端口号是特定协议的服务端口,则保留该数据包,否则过滤掉该数据包。
进一步地,所述提取数据包的六元组按照以下过程提取:舍弃数据包中传输层及更底层的不重要数据字段,保留六个重要的字段:源IP、目的IP、源端口号、目的端口号、时间戳、传输层载荷,从而减小数据包的占用空间。
进一步地,所述特定协议数据载荷提取按照以下过程提取:将数据包按照时间戳排序;对数据包中协议载荷进行提取,并给数据包打上标签以注明数据包的属性。
进一步地,所述请求载荷分类按照以下过程进行分类:通过编辑距离计算待分类请求与已知请求类型的请求载荷相似分数,得到待分类请求的类型,进而将同一类型请求对应的响应载荷作为训练样本。
进一步地,所述响应载荷编码按照以下过程进行编码:获取被编码字节数据的长度;计算编码矩阵的行数、列数;初始化编码矩阵;对于被编码数据的每个字节:计算填充编码矩阵的每一位的值,计算填充矩阵的起始行与起始列,将每一位的值填充到起始行与起始列范围内的元素中;获取编码矩阵。
进一步地,所述响应生成模型为生成对抗网络模型,其网络结构包括生成器和判别器;其中,生成器接收通道数为1,维度为64随机噪声向量作为输入,生成的假样本是通道数为1,长和宽均为32的灰度图;生成的假样本和真实样本作为判别器的输入,判别器输出样本的分类结果;判别器由全连接网络构成,输入为通道数为1,长宽均为32的灰度图片,输出的值范围在(0,1)之间,0代表输入的图片是假样本,1代表输入的图片是真样本。
根据本发明的另一方面,提出一种基于GAN的高仿真蜜罐实现系统,该系统包括:
请求报文获取模块,其配置成获取攻击者请求报文;
响应报文生成模块,其配置成利用基于GAN的高仿真蜜罐对攻击者请求产生正确应答,进而生成响应报文;其中,基于GAN的高仿真蜜罐依靠响应生成模型生成响应报文,所述响应生成模型的构建包括数据预处理与模型训练;所述数据预处理的步骤包括:特定协议流量的提取;提取数据包的六元组;以流划分数据包集合;特定协议数据载荷提取;请求载荷分类;响应载荷编码。
进一步地,所述响应报文生成模块中所述响应生成模型为生成对抗网络模型,其网络结构包括生成器和判别器;其中,生成器接收通道数为1,维度为64随机噪声向量作为输入,生成的假样本是通道数为1,长和宽均为32的灰度图;生成的假样本和真实样本作为判别器的输入,判别器输出样本的分类结果;判别器由全连接网络构成,输入为通道数为1,长宽均为32的灰度图片,输出的值范围在(0,1)之间,0代表输入的图片是假样本,1代表输入的图片是真样本。
本发明的有益技术效果是:
本发明提出一种基于GAN的高仿真蜜罐实现方法及系统,从交互流量数据出发,针对特定协议中每种类型请求的响应数据载荷应用特定编码方式,经过编码得到的灰度图作为生成对抗网络GAN训练的训练集,最终将生成器作为蜜罐中的响应生成模型,从而实现对攻击者的应答响应。经过实验测试,本发明设计的基于GAN的蜜罐与模拟的物联网僵尸网络在平均交互次数比开源中高交互蜜罐Cowrie提高约60%,并且缓解了因服务模拟不到位造成无法深入交互的问题,从而验证了基于GAN的蜜罐具有较高的仿真度。
附图说明
本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解,所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。
图1是本发明实施例所述的一种基于生成对抗网络GAN的高仿真蜜罐实现方法的流程图。
图2是本发明实施例中数据预处理流程图。
图3是本发明实施例中响应载荷编码流程图。
图4是本发明实施例中生成对抗网络模型结构图。
图5是本发明实施例中生成器网络结构图。
图6是本发明实施例中判别器网络结构图。
图7是本发明实施例中实验对象网络部署示意图。
图8是本发明实施例中实验对象网络部署的心跳响应格式示意图。
图9是本发明实施例中实验各交互阶段的真实样本示例图。
图10是本发明实施例中实验各交互阶段的生成样本示例图。
图11是本发明实施例中将本发明方法与蜜罐Cowrie各轮次交互次数对比图。
图12是本发明实施例中本发明方法心跳保持阶段交互次数示例图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,在下文中将结合附图对本发明的示范性实施方式或实施例进行描述。显然,所描述的实施方式或实施例仅仅是本发明一部分的实施方式或实施例,而不是全部的。基于本发明中的实施方式或实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式或实施例,都应当属于本发明保护的范围。
本发明实施例提出了一种基于生成对抗网络GAN的高仿真蜜罐实现方法,如图1所示,该方法包括以下步骤:
获取攻击者请求报文;
利用基于GAN的高仿真蜜罐对攻击者请求产生正确应答,进而生成响应报文;其中,基于GAN的高仿真蜜罐依靠响应生成模型生成响应报文,所述响应生成模型的构建包括数据预处理与模型训练。
根据本发明实施例,GAN具备学习模拟数据分布的能力,由于同一种类型请求对应的响应在数据分布上具备较高的相似性,因此利用GAN学习数据分布的能力生成每种类型请求的响应报文,使蜜罐具备对该类型请求的响应能力与较高的交互能力,从而缓解当前蜜罐设计中服务不到位导致交互能力不足的问题。该蜜罐以攻击者的请求报文作为输入,在经过请求报文分类器进行分类后得到请求报文对应的请求类型,然后根据请求类型使用对应的响应生成模型生成响应载荷,最后将响应载荷封装成报文发送给攻击者。
基于GAN的高仿真蜜罐能对攻击者请求产生正确的应答,主要是依靠响应生成模型,响应生成模型的构建主要分为数据预处理与模型结构及训练两个部分。
数据预处理是从包含多种协议的流量数据pcap文件中提取所针对的特定协议的请求与响应报文,并将响应报文的协议载荷按照本发明实施例提出的编码方式编码成灰度图,这些灰度图将作为下一个阶段生成对抗网络模型的真实训练样本集。如图2所示,预处理的步骤包括:
Step1:特定协议流量的提取。使用特定协议的服务端口对其他协议流量进行过滤,过滤规则是若数据包传输层上的目的端口号或者源端口号是特定协议的服务端口(如Telnet协议的服务端口为23),则保留该数据包,否则过滤掉该数据包。
Step2:提取数据包的六元组。舍弃数据包中传输层及更底层的不重要数据字段,保留六个重要的字段(源IP、目的IP、源端口号、目的端口号、时间戳、传输层载荷),从而减小数据包的占用空间。
Step3:以流划分数据包集合。会对数据包按照流进行划分,将属于同一个流的数据包放入同一个集合中,便于下一步划分请求与响应。
Step4:特定协议数据载荷提取。为了将数据包转化为请求响应序列,同时也为了进一步减小数据包占用的空间大小,先将数据包按照时间戳排序,然后对数据包中协议载荷进行提取,并给数据包打上标签以注明数据包的属性(请求或响应)。
Step5:请求载荷分类。为了让生成对抗网络能够学习到响应载荷上数据分布规律,应当将同一类型请求对应的响应载荷作为训练样本。在请求载荷分类中通过编辑距离计算待分类请求与已知请求类型的请求载荷相似分数,从而得到待分类请求的类型。
Step6:响应载荷编码。本实施例中生成对抗网络的生成器和判别器主要采用卷积神经网络结构,所以需要对字节格式的响应载荷进行编码以转化成编码矩阵(图像)。编码方式如图3所示,该编码方式使用位作为填充矩阵所用到的基本单位,并且将位的值乘以255后再填充到矩阵的相邻四个元素中。
编码的算法如算法1所示,此算法的输入为编码矩阵每行的可编码字节数rN和被编码的字节数组data,输出为编码矩阵(可直接转换成灰度图)。算法的主要思想是将每个字节的每个位按照既定顺序映射到编码矩阵的四个元素中。解码是编码的逆过程,求取编码矩阵中的相邻四个元素的平均值,再与设定阈值比较,即可得到位的预测值。
生成对抗网络模型如图4所示,训练模型中有两个网络结构,分别是生成器和判别器。生成器接收通道数为1,维度为64随机噪声向量作为输入,生成的假样本是通道数为1,长和宽均为32的灰度图。生成的假样本和真实样本可以作为判别器的输入,判别器将输出对样本的分类结果(真样本或假样本)。生成器和判别器将会根据反馈的分类结果更新自身网络结构的参数权重。
生成器网络结构如图5所示,在生成器网络结构中,采用了全连接层对输入的随机噪声进行变换,采用反卷积层将特征图的长宽维度放大到与真实样本一致。
判别器网络结构主要由全连接网络构成,网络结构如图6所示。输入为通道数为1,长宽均为32的灰度图片,输出的值范围在(0,1)之间,0代表输入的图片是假样本,1代表输入的图片是真样本。
在模型训练中,首先设置模型训练的迭代次数Epoch、生成器与判别器的训练轮次比值K。在一次迭代过程中首先生成随机噪声,用于输入到生成器中,进行生成器的训练。在完成生成器训练后,如果当前训练轮次值是K的整数倍,将会进行一次判别器的训练。最终完成训练的生成器将会作为蜜罐中的响应生成模型。
进一步通过实验验证本发明的技术效果。
实验针对Telnet协议,将本发明设计的蜜罐与蜜罐Cowrie作为对比,利用蜜罐与物联网僵尸网络的交互次数作为蜜罐的仿真度评价指标。实验环境配置如表1所示。
表1实验环境配置
参与实验的对象主要有三个:1)模拟的物联网僵尸网络。为了突出对比两种蜜罐的交互程度,简化物联网僵尸网络(如Mirai)中感染过程中的重复繁杂的操作,实验基于Telnet协议实现了一个简化版本的物联网僵尸网络,并将其作为与蜜罐交互的对象。2)本发明设计的蜜罐。3)中高交互蜜罐Cowrie,在实验中作为对照对象。
图7展示了这三个实验对象的网络部署情况。实验在VMWare虚拟平台上搭建了三个虚拟机,这三个虚拟机处于同一个子网段且通过桥接模式可以相互访问。其中,虚拟机1上部署了模拟的物联网僵尸网络;虚拟机2上通过容器的方式部署了开源蜜罐Cowrie,且容器通过Host网络模式使用宿主机的IP和端口与其他虚拟机通信;虚拟机3上部署了Netty服务端与本发明设计的蜜罐,此Netty服务端的作用是在特定端口暴露本发明设计的蜜罐提供的服务,并能从发往本发明设计的蜜罐的请求报文中提取应用层数据或对本发明设计的蜜罐发出的应用层响应数据封装成数据包发送给客户端。
模拟的物联网僵尸网络的感染过程如下:
1)模拟的物联网僵尸网络与正常设备上的Telnet服务创建连接,此过程中会产生Telnet协商选项报文,目的是与设备上的Telnet服务端协商Telnet的功能参数,如是否开启回显、窗口大小的设置等等。
2)模拟的物联网僵尸网络通过穷举方式暴力破解设备上Telnet服务的用户名与密码。本次实验中模拟的物联网僵尸网络使用'root'作为用户登录名以获取超级权限,并随机地从暴力破解字典(包含20个常用密码)中选取一个密码作为破解密码。
3)在成功登录后,模拟的物联网僵尸网络通过Echo方式将恶意软件载入到设备上,并执行恶意软件。本次研究中恶意软件模拟被感染设备将其他未被感染设备信息上传给物联网僵尸网络中的C&C服务与Loader服务器。
4)模拟的物联网僵尸网络利用运行的恶意软件与设备保持心跳连接,并从心跳响应中获取被感染设备收集的未被感染设备的信息。心跳响应格式如图8所示,其中’pong@report’和’:root:’为固定不变的字符串,IPAddress代表点分十进制的IP地址,Password代表设备密码,IPAddress和Password是可变的字符串。
基于GAN的高仿真蜜罐需要获取包含特定协议请求与响应报文的数据集作为生成对抗网络训练集的数据来源。因此需要捕获模拟的物联网僵尸网络与真实的Telnet服务之间的交互流量数据,并将这些流量数据按交互过程分为五个阶段:选项协商阶段、登录验证阶段、恶意软件载入阶段、恶意软件执行阶段、心跳保持与信息上报阶段。
实验1为响应生成模型生成样本测试:实验1旨在验证基于GAN训练响应生成模型的可行性。实验记录了不同交互阶段下请求对应的响应生成模型生成样本的正确率。其中生成样本正确率是生成器生成的样本(灰度图)经过解码转换后得到的响应体(字节型数据)符合真实响应体格式的比例。
实验1结果:图9展示了捕获的交互流量数据经过数据预处理得到的真实样本,图中响应(a)到(f)对应的请求类型所属的阶段分别为选项协商阶段、登录验证阶段、登录验证阶段、恶意软件载入阶段、恶意软件执行阶段、心跳保持与信息上报阶段。图10展示了各阶段的某个类型请求对应的响应生成模型的生成样本。对比图9和图10可以看到对应的生成样本与真实样本之间有一定的相似度。表2展示了不同交互阶段的响应生成模型的训练情况。表中(a)到(e)对应的交互阶段的响应生成模型仅在10个轮次的训练中即可达到100%的生成样本正确率,而(f)对应的交互阶段的响应生成模型在50个轮次训练后仅达到了73.5%的生成样本正确率。
实验1分析:生成样本在图片效果上与真实样本相似,初步说明了基于GAN构造蜜罐的可行性。在所有交互阶段中,心跳保持与信息上报阶段对应的生成样本在达到最大正确率时生成器需要的训练次数最多,而且生成样本的正确率在所有阶段中最低,这是因为其他阶段中每个类型的请求所对应的响应是唯一的,而心跳保持与信息上报阶段中的心跳响应包含可变部分,所以在心跳保持与信息上报阶段生成器需要更多次的训练以学习到可变部分中的数据分布。
表2不同交互阶段响应生成模型训练情况
实验2为蜜罐仿真度测试:实验2旨在验证基于GAN构造的蜜罐相比于开源中高交互蜜罐Cowrie具备更高的仿真度。本次实验中采用蜜罐与模拟的物联网僵尸网络交互次数作为仿真度的评价指标。模拟的物联网僵尸网络发出一次(应用层级别的)请求并获得响应,如果该响应符合设定的格式(真实Telnet服务返回的响应格式),则记此次请求与响应为一次成功的交互。若不符合预期,则释放连接。从模拟的物联网僵尸网络发出连接请求到连接的释放称为一个轮次的测试。在一个轮次测试中使用成功的交互次数作为蜜罐的交互程度的衡量指标。本次实验分别对蜜罐Cowrie和基于GAN构造的蜜罐进行了100轮次的测试。
实验2结果:图11展示了模拟的物联网僵尸网络分别与基于GAN的蜜罐、中高交互蜜罐Cowrie在各个轮次测试中的交互总次数。从图中可以看出基于GAN的蜜罐仅有少部分轮次测试中交互次数比中高交互蜜罐Cowire低且差距较小,而在大部分轮次测试中的交互次数比中高交互蜜罐Cowrie高。表3展示了两种蜜罐与模拟的物联网僵尸网络交互次数的统计值(平均值、最大值、最小值),从表中可以看出基于GAN的蜜罐在测试中的平均交互次数上相比中高交互蜜罐Cowrie提高了60%。且基于GAN的蜜罐在某个轮次中交互次数达到39次,约为中高交互蜜罐Cowrie最大交互次数3.5倍,且基于GAN的蜜罐的最小交互次数不低于Cowrie。图12展示了心跳保持与信息上报阶段基于GAN的蜜罐与模拟的物联网僵尸网络的交互情况。Cowrie由于没有恶意软件(Shell脚本)的执行环境,所以不能执行恶意软件,因此Cowrie在此阶段的交互次数始终为0。而本发明设计的蜜罐虽然也没有恶意软件的执行环境,但却能在多个轮次测试中与模拟的物联网僵尸网络保持多次交互,在某次测试中的交互次数高达约25次。
实验2分析:所有交互阶段的总交互次数的比较结果说明了基于GAN的蜜罐相比于Cowrie具有更好的交互能力。且在心跳保持与上报阶段,两种蜜罐都没有实现恶意软件执行环境的情况下,基于GAN的蜜罐仍能保持与模拟的物联网僵尸网络交互的能力,说明了利用特定协议的请求响应数据集和生成对抗网络构造的本发明蜜罐能缓解蜜罐中因服务模拟不到位导致交互失败的问题,因此本发明设计的蜜罐具备较高的交互能力。
表3蜜罐交互次数的统计值
与以往通过硬编码模拟服务实现的蜜罐不同,本发明设计的基于GAN的高仿真蜜罐从交互流量数据出发,针对特定协议中每种类型请求的响应数据载荷应用特定编码方式,经过编码得到的灰度图作为生成对抗网络GAN训练的训练集,最终将生成器作为蜜罐中的响应生成模型,从而实现对攻击者的应答响应。经过实验测试,基于GAN的蜜罐与模拟的物联网僵尸网络在平均交互次数比开源中高交互蜜罐Cowrie提高约60%,并且缓解了因服务模拟不到位造成无法深入交互的问题,从而验证了基于GAN的蜜罐具有较高的仿真度。
本发明另一实施例提出一种基于GAN的高仿真蜜罐实现系统,该系统包括:
请求报文获取模块,其配置成获取攻击者请求报文;
响应报文生成模块,其配置成利用基于GAN的高仿真蜜罐对攻击者请求产生正确应答,进而生成响应报文;其中,基于GAN的高仿真蜜罐依靠响应生成模型生成响应报文,所述响应生成模型的构建包括数据预处理与模型训练;所述数据预处理的步骤包括:特定协议流量的提取;提取数据包的六元组;以流划分数据包集合;特定协议数据载荷提取;请求载荷分类;响应载荷编码。
本实施例中,优选地,所述响应报文生成模块中所述响应生成模型为生成对抗网络模型,其网络结构包括生成器和判别器;其中,生成器接收通道数为1,维度为64随机噪声向量作为输入,生成的假样本是通道数为1,长和宽均为32的灰度图;生成的假样本和真实样本作为判别器的输入,判别器输出样本的分类结果;判别器由全连接网络构成,输入为通道数为1,长宽均为32的灰度图片,输出的值范围在(0,1)之间,0代表输入的图片是假样本,1代表输入的图片是真样本。
本发明实施例一种基于GAN的高仿真蜜罐实现系统的功能可以由前述一种基于GAN的高仿真蜜罐实现方法说明,因此系统实施例未详述部分,可参见以上方法实施例,在此不再赘述。
尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。对于本发明的范围,对本发明所做的公开是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。

Claims (10)

1.一种基于GAN的高仿真蜜罐实现方法,其特征在于,包括以下步骤:
获取攻击者请求报文;
利用基于GAN的高仿真蜜罐对攻击者请求产生正确应答,进而生成响应报文;其中,基于GAN的高仿真蜜罐依靠响应生成模型生成响应报文,所述响应生成模型的构建包括数据预处理与模型训练。
2.根据权利要求1所述的一种基于GAN的高仿真蜜罐实现方法,其特征在于,所述数据预处理的步骤包括:
Step1:特定协议流量的提取;
Step2:提取数据包的六元组;
Step3:以流划分数据包集合;
Step4:特定协议数据载荷提取;
Step5:请求载荷分类;
Step6:响应载荷编码。
3.根据权利要求2所述的一种基于GAN的高仿真蜜罐实现方法,其特征在于,所述特定协议流量的提取按照以下过程提取:使用特定协议的服务端口对其他协议流量进行过滤,过滤规则是若数据包传输层上的目的端口号或者源端口号是特定协议的服务端口,则保留该数据包,否则过滤掉该数据包。
4.根据权利要求2所述的一种基于GAN的高仿真蜜罐实现方法,其特征在于,所述提取数据包的六元组按照以下过程提取:舍弃数据包中传输层及更底层的不重要数据字段,保留六个重要的字段:源IP、目的IP、源端口号、目的端口号、时间戳、传输层载荷,从而减小数据包的占用空间。
5.根据权利要求2所述的一种基于GAN的高仿真蜜罐实现方法,其特征在于,所述特定协议数据载荷提取按照以下过程提取:将数据包按照时间戳排序;对数据包中协议载荷进行提取,并给数据包打上标签以注明数据包的属性。
6.根据权利要求2所述的一种基于GAN的高仿真蜜罐实现方法,其特征在于,所述请求载荷分类按照以下过程进行分类:通过编辑距离计算待分类请求与已知请求类型的请求载荷相似分数,得到待分类请求的类型,进而将同一类型请求对应的响应载荷作为训练样本。
7.根据权利要求2所述的一种基于GAN的高仿真蜜罐实现方法,其特征在于,所述响应载荷编码按照以下过程进行编码:获取被编码字节数据的长度;计算编码矩阵的行数、列数;初始化编码矩阵;对于被编码数据的每个字节:计算填充编码矩阵的每一位的值,计算填充矩阵的起始行与起始列,将每一位的值填充到起始行与起始列范围内的元素中;获取编码矩阵。
8.根据权利要求1或2所述的一种基于GAN的高仿真蜜罐实现方法,其特征在于,所述响应生成模型为生成对抗网络模型,其网络结构包括生成器和判别器;其中,生成器接收通道数为1,维度为64随机噪声向量作为输入,生成的假样本是通道数为1,长和宽均为32的灰度图;生成的假样本和真实样本作为判别器的输入,判别器输出样本的分类结果;判别器由全连接网络构成,输入为通道数为1,长宽均为32的灰度图片,输出的值范围在(0,1)之间,0代表输入的图片是假样本,1代表输入的图片是真样本。
9.一种基于GAN的高仿真蜜罐实现系统,其特征在于,包括:
请求报文获取模块,其配置成获取攻击者请求报文;
响应报文生成模块,其配置成利用基于GAN的高仿真蜜罐对攻击者请求产生正确应答,进而生成响应报文;其中,基于GAN的高仿真蜜罐依靠响应生成模型生成响应报文,所述响应生成模型的构建包括数据预处理与模型训练;所述数据预处理的步骤包括:特定协议流量的提取;提取数据包的六元组;以流划分数据包集合;特定协议数据载荷提取;请求载荷分类;响应载荷编码。
10.根据权利要求9所述的一种基于GAN的高仿真蜜罐实现系统,其特征在于,所述响应报文生成模块中所述响应生成模型为生成对抗网络模型,其网络结构包括生成器和判别器;其中,生成器接收通道数为1,维度为64随机噪声向量作为输入,生成的假样本是通道数为1,长和宽均为32的灰度图;生成的假样本和真实样本作为判别器的输入,判别器输出样本的分类结果;判别器由全连接网络构成,输入为通道数为1,长宽均为32的灰度图片,输出的值范围在(0,1)之间,0代表输入的图片是假样本,1代表输入的图片是真样本。
CN202311240301.7A 2023-09-25 2023-09-25 一种基于gan的高仿真蜜罐实现方法及系统 Pending CN117240560A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311240301.7A CN117240560A (zh) 2023-09-25 2023-09-25 一种基于gan的高仿真蜜罐实现方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311240301.7A CN117240560A (zh) 2023-09-25 2023-09-25 一种基于gan的高仿真蜜罐实现方法及系统

Publications (1)

Publication Number Publication Date
CN117240560A true CN117240560A (zh) 2023-12-15

Family

ID=89082288

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311240301.7A Pending CN117240560A (zh) 2023-09-25 2023-09-25 一种基于gan的高仿真蜜罐实现方法及系统

Country Status (1)

Country Link
CN (1) CN117240560A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117792803A (zh) * 2024-02-28 2024-03-29 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种基于有效载荷的网络攻击检测方法、系统及介质
CN118138371A (zh) * 2024-04-29 2024-06-04 杭州海康威视数字技术股份有限公司 基于搜索引擎的快速蜜罐构建方法、装置及设备
CN118316745A (zh) * 2024-06-12 2024-07-09 广州大学 一种蜜点生成方法及生成系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117792803A (zh) * 2024-02-28 2024-03-29 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种基于有效载荷的网络攻击检测方法、系统及介质
CN118138371A (zh) * 2024-04-29 2024-06-04 杭州海康威视数字技术股份有限公司 基于搜索引擎的快速蜜罐构建方法、装置及设备
CN118316745A (zh) * 2024-06-12 2024-07-09 广州大学 一种蜜点生成方法及生成系统

Similar Documents

Publication Publication Date Title
CN117240560A (zh) 一种基于gan的高仿真蜜罐实现方法及系统
Dong et al. CETAnalytics: Comprehensive effective traffic information analytics for encrypted traffic classification
CN113364752B (zh) 一种流量异常检测方法、检测设备及计算机可读存储介质
CN111277570A (zh) 数据的安全监测方法和装置、电子设备、可读介质
CN106101104A (zh) 一种基于域名解析的恶意域名检测方法及系统
Deshpande et al. Security and Data Storage Aspect in Cloud Computing
CN103780501B (zh) 一种不可分小波支持向量机的对等网络流量识别方法
CN113452676B (zh) 一种检测器分配方法和物联网检测系统
CN112261021B (zh) 软件定义物联网下DDoS攻击检测方法
CN113765846A (zh) 一种网络异常行为智能检测与响应方法、装置及电子设备
CN105429940A (zh) 一种利用信息熵和哈希函数进行网络数据流零水印提取的方法
Chiu et al. CAPC: packet-based network service classifier with convolutional autoencoder
CN113518042A (zh) 一种数据处理方法、装置、设备及存储介质
CN114362988B (zh) 网络流量的识别方法及装置
Wu et al. IoT network traffic analysis: Opportunities and challenges for forensic investigators?
CN116647353A (zh) 基于层次特征的LDoS隐蔽攻击检测方法以及装置
Herzalla et al. TII-SSRC-23 Dataset: Typological Exploration of Diverse Traffic Patterns for Intrusion Detection
Jin et al. Video Sensor Security System in IoT Based on Edge Computing
CN116451138A (zh) 基于多模态学习的加密流量分类方法、装置及存储介质
CN113726809B (zh) 基于流量数据的物联网设备识别方法
CN112615713B (zh) 隐蔽信道的检测方法、装置、可读存储介质及电子设备
CN115086021A (zh) 校园网入侵检测方法、装置、设备及存储介质
Ageyev et al. Data Sets Selection for Distributed Infocommunication Networks Traffic Abnormality Detection
CN115225301A (zh) 基于d-s证据理论的混合入侵检测方法和系统
CN114765553B (zh) 访问数据的安全管理方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination