CN114915599A - 一种基于半监督聚类学习的暗网站点会话识别方法及系统 - Google Patents

一种基于半监督聚类学习的暗网站点会话识别方法及系统 Download PDF

Info

Publication number
CN114915599A
CN114915599A CN202210845605.5A CN202210845605A CN114915599A CN 114915599 A CN114915599 A CN 114915599A CN 202210845605 A CN202210845605 A CN 202210845605A CN 114915599 A CN114915599 A CN 114915599A
Authority
CN
China
Prior art keywords
session
dark
dark website
flow
obfs4
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210845605.5A
Other languages
English (en)
Other versions
CN114915599B (zh
Inventor
李航
丁建伟
陈周国
张震
黄远
沈亮
李欣泽
杨宇
王鑫
刘志洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 30 Research Institute
National Computer Network and Information Security Management Center
Original Assignee
CETC 30 Research Institute
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 30 Research Institute, National Computer Network and Information Security Management Center filed Critical CETC 30 Research Institute
Priority to CN202210845605.5A priority Critical patent/CN114915599B/zh
Publication of CN114915599A publication Critical patent/CN114915599A/zh
Application granted granted Critical
Publication of CN114915599B publication Critical patent/CN114915599B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • H04L47/2483Traffic characterised by specific attributes, e.g. priority or QoS involving identification of individual flows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • H04L47/2441Traffic characterised by specific attributes, e.g. priority or QoS relying on flow classification, e.g. using integrated services [IntServ]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及计算机网络技术领域,公开了一种基于半监督聚类学习的暗网站点会话识别方法及系统,该会话识别方法,利用深度学习CNN算法自动提取Obfs4网桥下暗网站点会话的特征,并利半监督聚类算法对暗网站点的onion地址进行识别。本发明解决了现有技术存在的泛化性不足、识别准确度较低、实用性不足等问题。

Description

一种基于半监督聚类学习的暗网站点会话识别方法及系统
技术领域
本发明涉及计算机网络技术领域,具体是一种基于半监督聚类学习的暗网站点会话识别方法及系统。
背景技术
Obfs4网桥是Tor浏览器常用网桥之一,它作为一个模仿SSL协议进行加密的匿名混淆协议,继承了Obfsproxy系列的加密方式,通过对负载部分的高度加密以及强大随机性来避免流量识别,同时在握手阶段引入了相互认证的机制,并设置了双方收发数据包的时间戳,从而很大程度上抑制了中间人攻击。通过分析Obfs4网桥的Tor浏览器客户端的流量数据,可以推断与确认双方通讯关系或任意一方的身份信息。
针对在网络流量层对Obfs4网桥下用户访问的暗网站点进行识别的问题,现有的方法大多利用机器学习或深度学习方法对Obfs4网桥的流量进行识别,例如论文《基于滑动窗口的混淆Tor流量识别》(Xu W, Zou F. Obfuscated Tor Traffic IdentificationBased on Sliding Window[J]. Security and Communication Networks, 2021,2021.)、论文《Obfs4匿名网络流量识别研究》(高睿. Obfs4 匿名网络流量识别研究[D].北京交通大学, 2018.)等研究通过提取时序特征、数据包特征、连接特征等多维流量特征,并使用机器学习算法来识别Obfs4流量,但这些研究未对流量进行进一步分析,没有对Obfs4流量下的访问的暗网站点进行识别,无法实现对暗网网络的精准监管。论文《基于匿名流量分析的网站识别》(赵晓娟. 基于匿名流量分析的网站识别[D]. 北京交通大学,2019)提出的Obfs4的网站指纹识别算法,可以对网站进行识别,但其高度依赖数据采集的多样性与人工经验提取特征的全面性,当网页结构发生变化时,需要重新训练模型,导致泛化性与实用性不足。
发明内容
为克服现有技术的不足,本发明提供了一种基于半监督聚类学习的暗网站点会话识别方法及系统,解决现有技术存在的泛化性不足、识别准确度较低、实用性不足等问题。
本发明解决上述问题所采用的技术方案是:
一种基于半监督聚类学习的暗网站点会话识别方法,利用深度学习CNN算法自动提取Obfs4网桥下暗网站点会话的特征,并利半监督聚类算法对暗网站点的onion地址进行识别。
作为一种优选的技术方案,包括以下步骤:
S1,Obfs4流量采集与暗网站点标注:利用配置有Obfs4插件的Tor浏览器访问不同的暗网站点,在客户端采集Obfs4流量的数据,并在pcap文件的文件名中标出访问的onion地址,得到带暗网站点标记的流量样本数据;
S2,Obfs4流量预处理:对pcap格式的流量数据进行预处理,得到带暗网站点标记的会话样本数据;
S3,暗网站点特征生成:基于步骤S2中的带暗网站点标记的会话样本数据,利用深度学习CNN算法提取基于Obfs4流量下的暗网站点特征向量;
S4,半监督聚类:基于步骤S2得到的带暗网站点标记的会话样本数据以及S3中提取的基于obfs4流量下的暗网站点特征向量,利用半监督聚类算法对未知会话样本实现暗网站点onion地址的识别;
S5,聚类结果反馈:对Obfs4流量的聚类结果进行可视化展示,筛选出异常类簇,并结合人工经验,标注出异常类簇对应的暗网站点onion地址,并将标注后的暗网站点onion地址添加至步骤S1中的带暗网站点标记的流量样本数据中。
作为一种优选的技术方案,步骤S1包括以下步骤:
S11,判断是否为测试阶段;若是,则获取网关镜像流量,生成pcap流量数据,然后进入步骤S2;若否,则进入步骤S12;
S12,在Tor浏览器使用obfs4网桥,并进行网络连接;
S13,获取.onion服务的列表;
S14,获取第一条onion地址;
S15,运行wireshark,访问步骤S14中获取的onion地址,保存pcap文件,并用步骤S14中获取的onion地址作为标注;
S16,获取下一条onion地址;
S17,判断Onion地址是否为空;若是,则进入步骤S2;若否,则返回步骤S15。
作为一种优选的技术方案,步骤S2包括以下步骤:
S21,解析流量数据,过滤广播流量、ICMP协议、UDP流量,并对会话进行重组,提取会话五元组信息;
S23,判断经步骤S21过滤后的会话协议类型是否为未知协议;若是,则保留会话;否则,过滤该会话;
S24,对保留的会话信息进行存储,并提取会话中前100个交互报文的前1024个字节,若不足1024字节,则利用0xFF进行填充至1024字节,利用填充后的交互报文构成会话字节矩阵,并将会话字节矩阵转为灰度图像。
作为一种优选的技术方案,步骤S3包括以下步骤:
S31,构建并训练暗网站点特征生成模型;
S32,将会话灰度数据输入至训练后的暗网站点特征生成模型,利用深度学习提取Obfs4流量中的暗网站点特征,将提取的暗网站点特征输出。
作为一种优选的技术方案,步骤S31包括以下步骤:
S311,构建暗网站点特征生成模型:利用CNN网络提取Obfs4流量下的暗网站点特征;
S312,利用有暗网站点标注的Obfs4流量训练暗网站点特征生成模型:将会话灰度图像依次通过3*3的卷积层、2*2池化层、3*3的卷积层、全连接层、输出层进行处理,得到暗网站点特征生成模型识别的结果及其置信度,识别结果包括暗网站点的onion地址、暗网站点的onion地址的置信度,其中,全连接层中使用sigmod函数;通过不断调整暗网站点特征生成模型参数,重复进行训练,直至置信度达到设定的阈值,输出暗网站点特征生成模型识别的结果及其置信度;
S313,删除已训练的暗网站点特征生成模型的全连接层、输出层以及置信度,并将其保存为训练后的暗网站点特征生成模型。
作为一种优选的技术方案,步骤S4包括以下步骤:
S41,输入未知会话的灰度数据;
S42,利用暗网站点特征生成模型,提取未知会话的特征向量;
S43,将已有暗网站点标签的流量会话数据作为种子集,采用最大期望算法将样本划分为K个簇,计算步骤S41输入的未知会话与每个类簇的距离;其中,K为已知暗网站点的Onion地址数,初始化的集群中心是每个簇类的均值;
S44,得到聚类结果:若该会话与距离最近的类中心距离小于设定阈值,则认为该会话为最近的暗网站点类簇的暗网站点,并对会话进行标注;否则,认为该会话为非已知的暗网站点会话。
作为一种优选的技术方案,步骤S5包括以下步骤:
S51,将聚类结果以图形化结果展示,形成散点类簇图;
S52,通过界面查看是否存在异常类簇,确认异常类簇是否为新的暗网站点;其中,异常类簇指不含有暗网站点标注的类簇;
S53,若确认异常类簇为新的暗网站点,则结合人工经验,标注出异常类簇对应的暗网站点onion地址,并将标注后的暗网站点onion地址添加至步骤S1中的带暗网站点标记的流量样本数据中。
一种基于半监督聚类学习的暗网站点会话识别系统,基于所述的一种基于半监督聚类学习的暗网站点会话识别方法,包括依次电相连的以下模块:
Obfs4流量采集与暗网站点标注模块:用以,利用配置有Obfs4插件的Tor浏览器访问不同的暗网站点,在客户端采集Obfs4流量的数据,并在pcap文件的文件名中标出访问的onion地址,得到带暗网站点标记的流量样本数据;
Obfs4流量预处理模块:用以,对pcap格式的流量数据进行预处理,得到带暗网站点标记的会话样本数据;
暗网站点特征生成模块:用以,基于步骤S2中的带暗网站点标记的会话样本数据,利用深度学习CNN算法提取基于Obfs4流量下的暗网站点特征向量;
半监督聚类模块:用以,基于步骤S2得到的带暗网站点标记的会话样本数据以及S3中提取的基于obfs4流量下的暗网站点特征向量,利用半监督聚类算法对未知会话样本实现暗网站点onion地址的识别;
聚类结果反馈模块:用以,对Obfs4流量的聚类结果进行可视化展示,筛选出异常类簇,并结合人工经验,标注出异常类簇对应的暗网站点onion地址,并将标注后的暗网站点onion地址添加至步骤S1中的带暗网站点标记的流量样本数据中;
Obfs4流量预处理模块还与半监督聚类模块电相连。
本发明相比于现有技术,具有以下有益效果:
(1)本发明基于Obfs4流量利用深度学习自动提取暗网站点会话特征,提升特征的表征性,降低对人工提取暗网网页的特征的依赖度,从而提升识别方法的泛化性;
(2)本发明基于少量的暗网站点标注样本,将半监督聚类学习运用到暗网站点识别中,使其不需要大量标注样本,提升识别方法的实用性,有利于工程实现。
附图说明
图1为本发明所述的一种基于半监督聚类学习的暗网站点会话识别系统的部署图;
图2为本发明所述的一种基于半监督聚类学习的暗网站点会话识别方法的流程图;
图3为本发明所述的一种基于半监督聚类学习的暗网站点会话识别系统的结构示意图;
图4为实施例2记载的本发明的步骤S1的流程图;
图5为实施例2记载的本发明的步骤S4的流程图;
图6为实施例2记载的本发明的暗网站点特征生成模块的结构示意图。
具体实施方式
下面结合实施例及附图,对本发明作进一步的详细说明,但本发明的实施方式不限于此。
实施例1
如图1至图6所示,一种基于半监督聚类学习的暗网站点会话识别方法,利用深度学习CNN算法自动提取Obfs4网桥下暗网站点会话的特征,并利半监督聚类算法对暗网站点的onion地址进行识别(可优选利用seeded-kmeans半监督算法对暗网站点的onion地址的识别)。
作为一种优选的技术方案,包括以下步骤:
S1,Obfs4流量采集与暗网站点标注:利用配置有Obfs4插件的Tor浏览器访问不同的暗网站点,在客户端采集Obfs4流量的数据,并在pcap文件的文件名中标出访问的onion地址,得到带暗网站点标记的流量样本数据;
S2,Obfs4流量预处理:对pcap格式的流量数据进行预处理,得到带暗网站点标记的会话样本数据;
S3,暗网站点特征生成:基于步骤S2中的带暗网站点标记的会话样本数据,利用深度学习CNN算法提取基于Obfs4流量下的暗网站点特征向量;
S4,半监督聚类:基于步骤S2得到的带暗网站点标记的会话样本数据以及S3中提取的基于obfs4流量下的暗网站点特征向量(利用CNN提取与生成Obfs4流量下的暗网站点特征向量),利用半监督聚类算法对未知会话样本实现暗网站点onion地址的识别;
S5,聚类结果反馈:对Obfs4流量的聚类结果进行可视化展示,筛选出异常类簇(异常类簇即非已知暗网站点标记的类簇),并结合人工经验,标注出异常类簇对应的暗网站点onion地址,并将标注后的暗网站点onion地址添加至步骤S1中的带暗网站点标记的流量样本数据中。
本发明针对现有从网络流量层面识别暗网站点会话的方法泛化性不足,且由于暗网站点流量数据采集难、标注成本高,现有识别方法实用性较低的问题,本发明提出了一种基于半监督聚类学习的暗网站点会话识别方法及装置。基于配置Obfs4网桥的Tor 浏览器客户端的流量数据(即Obfs4流量),利用深度学习自动提取Obfs4流量下暗网站点会话的特征,降低对专家知识的依赖性;并通过半监督聚类学习,在标注样本数量少的条件下,有效识别暗网站点会话,提升识别方法的泛化性与实用性。
作为一种优选的技术方案,步骤S1包括以下步骤:
S11,判断是否为测试阶段;若是,则获取网关镜像流量,生成pcap流量数据,然后进入步骤S2;若否,则进入步骤S12;
S12,在Tor浏览器使用obfs4网桥,并进行网络连接;
S13,获取.onion服务的列表;
S14,获取第一条onion地址;
S15,运行wireshark,访问步骤S14中获取的onion地址,保存pcap文件,并用步骤S14中获取的onion地址作为标注;
S16,获取下一条onion地址;
S17,判断Onion地址是否为空;若是,则进入步骤S2;若否,则返回步骤S15。
通过以上步骤,较好地实现了Obfs4流量采集与暗网站点标注。
作为一种优选的技术方案,步骤S2包括以下步骤:
S21,解析流量数据,过滤广播流量、ICMP协议、UDP流量,并对会话进行重组,提取会话五元组信息;
S23,判断经步骤S21过滤后的会话协议类型是否为未知协议;若是,则保留会话;否则,过滤该会话;
S24,对保留的会话信息进行存储,并提取会话中前100个交互报文的前1024个字节,若不足1024字节,则利用0xFF进行填充至1024字节,利用填充后的交互报文构成会话字节矩阵,并将会话字节矩阵转为灰度图像。
通过以上步骤,较好地实现了Obfs4流量预处理。
作为一种优选的技术方案,步骤S3包括以下步骤:
S31,构建并训练暗网站点特征生成模型;
S32,将会话灰度数据输入至训练后的暗网站点特征生成模型,利用深度学习提取Obfs4流量中的暗网站点特征,将提取的暗网站点特征输出。
作为一种优选的技术方案,步骤S31包括以下步骤:
S311,构建暗网站点特征生成模型:利用CNN网络提取Obfs4流量下的暗网站点特征;
S312,利用有暗网站点标注的Obfs4流量训练暗网站点特征生成模型:将会话灰度图像依次通过3*3的卷积层、2*2池化层、3*3的卷积层、全连接层、输出层进行处理,得到暗网站点特征生成模型识别的结果及其置信度,识别结果包括暗网站点的onion地址、暗网站点的onion地址的置信度,其中,全连接层中使用sigmod函数;通过不断调整暗网站点特征生成模型参数,重复进行训练,直至置信度达到设定的阈值,输出暗网站点特征生成模型识别的结果及其置信度;
S313,删除已训练的暗网站点特征生成模型的全连接层、输出层以及置信度,并将其保存为训练后的暗网站点特征生成模型。
通过以上步骤,较好地实现了暗网站点特征生成。
作为一种优选的技术方案,步骤S4包括以下步骤:
S41,输入未知会话的灰度数据;
S42,利用暗网站点特征生成模型,提取未知会话的特征向量;
S43,将已有暗网站点标签的流量会话数据作为种子集,采用最大期望算法将样本划分为K个簇,计算步骤S41输入的未知会话与每个类簇的距离;其中,K为已知暗网站点的Onion地址数,初始化的集群中心是每个簇类的均值;
S44,得到聚类结果:若该会话与距离最近的类中心距离小于设定阈值(设定的阈值越小,识别准确性越高,优选0.05),则认为该会话为最近的暗网站点类簇的暗网站点,并对会话进行标注;否则,认为该会话为非已知的暗网站点会话。
通过以上步骤,较好地实现了半监督聚类。
作为一种优选的技术方案,步骤S5包括以下步骤:
S51,将聚类结果以图形化结果展示,形成散点类簇图;
S52,通过界面查看是否存在异常类簇,确认异常类簇是否为新的暗网站点;其中,异常类簇指不含有暗网站点标注的类簇;
S53,若确认异常类簇为新的暗网站点,则结合人工经验,标注出异常类簇对应的暗网站点onion地址,并将标注后的暗网站点onion地址添加至步骤S1中的带暗网站点标记的流量样本数据中。
通过以上步骤,较好地实现了聚类结果反馈。
一种基于半监督聚类学习的暗网站点会话识别系统,基于所述的一种基于半监督聚类学习的暗网站点会话识别方法,包括依次电相连的以下模块:
Obfs4流量采集与暗网站点标注模块:用以,利用配置有Obfs4插件的Tor浏览器访问不同的暗网站点,在客户端采集Obfs4流量的数据,并在pcap文件的文件名中标出访问的onion地址,得到带暗网站点标记的流量样本数据;
Obfs4流量预处理模块:用以,对pcap格式的流量数据进行预处理,得到带暗网站点标记的会话样本数据;
暗网站点特征生成模块:用以,基于步骤S2中的带暗网站点标记的会话样本数据,利用深度学习CNN算法提取基于Obfs4流量下的暗网站点特征向量;
半监督聚类模块:用以,基于步骤S2得到的带暗网站点标记的会话样本数据以及S3中提取的基于obfs4流量下的暗网站点特征向量,利用半监督聚类算法对未知会话样本实现暗网站点onion地址的识别;
聚类结果反馈模块:用以,对Obfs4流量的聚类结果进行可视化展示,筛选出异常类簇,并结合人工经验,标注出异常类簇对应的暗网站点onion地址,并将标注后的暗网站点onion地址添加至步骤S1中的带暗网站点标记的流量样本数据中;
Obfs4流量预处理模块还与半监督聚类模块电相连。
实施例2
如图1至图6所示,作为实施例1的进一步优化,在实施例1的基础上,本实施例还包括以下技术特征:
对Obfs4网桥的Tor 浏览器客户端的流量数据(即Obfs4流量)进行分析,提出一种基于半监督聚类学习的暗网站点会话识别方法及系统。通过在旁路部署一种基于半监督聚类学习的暗网站点会话识别系统,对镜像流量进行分析,将分析与识别结果反馈至管理员。此外,管理员也可通过控制指令下发启动、停止等命令。部署拓扑如图1所示。
基于半监督聚类学习的暗网站点会话识别系统的整体框架主要包括Obfs4流量采集与暗网站点标注模块、Obfs4流量预处理模型、暗网站点特征生成模块、半监督聚类模块,以及聚类结果反馈模块。
本发明共涉及5个模块,包括:
(1)Obfs4流量采集与暗网站点标注模块:该模块主要通过配置有Obfs4插件的Tor浏览器访问不同的暗网站点,在客户端采集Obfs4流量的数据,并在流量pcap包中标注暗网站点信息。
(2)流量预处理模块:该模块对pcap格式的流量数据进行预处理,主要包括会话重组以及无关流量的过滤。
(3)暗网站点特征生成模块:该模块主要基于暗网站点的标注数据,利用深度学习提取Obfs4流量中的暗网站点特征。
(4)半监督聚类模块:该模块主要基于现有的标注数据及其特征,对未知流量,通过半监督聚类算法实现对暗网站点的识别。
(5)聚类结果反馈模块:该模块主要为可视化展示,对Obfs4流量的聚类结果进行可视化展示,并结合人工经验,发现异常类簇(如未知标签的新类簇),并在暗网标注中进行反馈与更新。
本发明整体流程图如图2所示:
更具体地:
一、本发明中的Obfs4流量采集与暗网站点标注的过程描述如下:
第1步:判断是否为测试阶段,若为测试阶段,则获取网关镜像流量,并保存为pcap文件格式,结束;否则,进入步骤2。
第2步:在Tor浏览器中,配置Obfs4网桥,使网络可以连通;
第3步:获取待访问的暗网站点列表;
第4步:对每一个暗网站点依次进行访问,并利用wireshark采集Tor浏览器客户端流量,并用站点名为标注。
二、本发明中的流量预处理的过程描述如下:
根据Obfs4的通信原理,Obfs4网桥客户端接收经过Tor加密的payload,然后使用Obfs4函数对其再次封装,在会话层面表现为未知协议的TCP会话。本发明基于上述原理,设计如下预处理步骤,筛选出测试阶段的疑似Obfs4流量。
第1步:解析流量数据,过滤广播流量、ICMP协议、UDP流量,并对会话进行重组,并提取会话五元组信息;
第2步:过滤HTTP、TLS、DNS、SSH等协议的会话。
第3步:判断会话协议类型是否为未知协议,若是,则保留会话;否则,过滤该会话。
第4步:对保留的会话信息进行存储,并提取会话中前100个交互报文的前1024个字节,若不足1024字节,则利用0xFF进行填充至1024字节,以此构成会话字节矩阵,并将此转为灰度图像。
三、本发明中的暗网站点特征生成的过程描述如下:
本发明中的暗网站点特征生成模块主要包含深度学习模型构建与训练、生成特征两个步骤。本发明使用半监督深度学习的方式,通过少量的标注数据训练网络,提取Obfs4会话特征。
第1步:模型构建与训练;
Step1:利用有暗网站点标注的Obfs4流量训练CNN网络,对输入的会话灰度图像进行第一次卷积运算(可使用3*3的卷积核),再使用2*2核进行池化,其次在第二次卷积中使用3*3的卷积,并在全连接层中使用sigmod函数,并输出网络识别的结果与置信度,如下图所示。通过不断调整模型参数,重复进行训练,直至置信度达到可接受的阈值(该阈值可自定义设置,为提高拦截的精确率,本申请中默认为0.95)。
Step2:删除已训练CNN网络模型的全连接层、输出层以及置信度,并将其保存为特征生成模型。
第2步:生成特征;
输入会话灰度数据,将特征生成模型的输出作为特征。
四、本发明中的半监督聚类的过程描述如下:
半监督聚类模块主要实现了暗网站点的识别,其流程如下图所示:
第1步:输入未知会话的灰度数据;
第2步:利用特征生成模型,提取未知会话的特征;
第3步:将已有暗网站点标签的流量会话数据作为种子集,采用最大期望算法将样本划分为K个簇(K为已知暗网站点的标签数),初始化的集群中心是每个簇类的均值,计算该未知会话与每个类簇的距离;
第4步:若该会话与距离最近的类中心距离小于0.05,则认为该会话为此类的暗网站点,并对会话进行标注;否则认为非已知的暗网站点会话。
五、本发明中的聚类结果反馈的过程描述如下:
第1步:将聚类结果以图形化结果展示,形成散点类簇图;
第2步:管理员通过界面查看是否存在异常类簇,即不含有暗网站点标注的类簇,通过人工确认,确认异常类簇是否为新的暗网站点;
第3步:若确认为新的暗网站点,则将暗网站点标注信息与会话信息反馈至暗网站点标注模块,增加标注样本。
本发明针对现有从网络流量层面识别暗网站点会话的方法泛化性不足,且由于暗网站点流量数据采集难、标注成本高,现有识别方法实用性较低的问题,本发明提出了一种基于半监督聚类学习的暗网站点会话识别方法及系统。基于配置Obfs4网桥的Tor 浏览器客户端的流量数据(即Obfs4流量),利用深度学习自动提取Obfs4流量下暗网站点会话的特征,降低对专家知识的依赖性;并通过半监督聚类学习,在标注样本数量少的条件下,有效识别暗网站点会话,提升识别方法的泛化性与实用性。
如上所述,可较好地实现本发明。
本说明书中所有实施例公开的所有特征,或隐含公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合和/或扩展、替换。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,依据本发明的技术实质,在本发明的精神和原则之内,对以上实施例所作的任何简单的修改、等同替换与改进等,均仍属于本发明技术方案的保护范围之内。

Claims (9)

1.一种基于半监督聚类学习的暗网站点会话识别方法,其特征在于,利用深度学习CNN算法自动提取Obfs4网桥下暗网站点会话的特征,并利半监督聚类算法对暗网站点的onion地址进行识别。
2.根据权利要求1所述的一种基于半监督聚类学习的暗网站点会话识别方法,其特征在于,包括以下步骤:
S1,Obfs4流量采集与暗网站点标注:利用配置有Obfs4插件的Tor浏览器访问不同的暗网站点,在客户端采集Obfs4流量的数据,并在pcap文件的文件名中标出访问的onion地址,得到带暗网站点标记的流量样本数据;
S2,Obfs4流量预处理:对pcap格式的流量数据进行预处理,得到带暗网站点标记的会话样本数据;
S3,暗网站点特征生成:基于步骤S2中的带暗网站点标记的会话样本数据,利用深度学习CNN算法提取基于Obfs4流量下的暗网站点特征向量;
S4,半监督聚类:基于步骤S2得到的带暗网站点标记的会话样本数据以及S3中提取的基于obfs4流量下的暗网站点特征向量,利用半监督聚类算法对未知会话样本实现暗网站点onion地址的识别;
S5,聚类结果反馈:对Obfs4流量的聚类结果进行可视化展示,筛选出异常类簇,并结合人工经验,标注出异常类簇对应的暗网站点onion地址,并将标注后的暗网站点onion地址添加至步骤S1中的带暗网站点标记的流量样本数据中。
3.根据权利要求2所述的一种基于半监督聚类学习的暗网站点会话识别方法,其特征在于,步骤S1包括以下步骤:
S11,判断是否为测试阶段;若是,则获取网关镜像流量,生成pcap流量数据,然后进入步骤S2;若否,则进入步骤S12;
S12,在Tor浏览器使用obfs4网桥,并进行网络连接;
S13,获取.onion服务的列表;
S14,获取第一条onion地址;
S15,运行wireshark,访问步骤S14中获取的onion地址,保存pcap文件,并用步骤S14中获取的onion地址作为标注;
S16,获取下一条onion地址;
S17,判断Onion地址是否为空;若是,则进入步骤S2;若否,则返回步骤S15。
4.根据权利要求3所述的一种基于半监督聚类学习的暗网站点会话识别方法,其特征在于,步骤S2包括以下步骤:
S21,解析流量数据,过滤广播流量、ICMP协议、UDP流量,并对会话进行重组,提取会话五元组信息;
S23,判断经步骤S21过滤后的会话协议类型是否为未知协议;若是,则保留会话;否则,过滤该会话;
S24,对保留的会话信息进行存储,并提取会话中前100个交互报文的前1024个字节,若不足1024字节,则利用0xFF进行填充至1024字节,利用填充后的交互报文构成会话字节矩阵,并将会话字节矩阵转为灰度图像。
5.根据权利要求4所述的一种基于半监督聚类学习的暗网站点会话识别方法,其特征在于,步骤S3包括以下步骤:
S31,构建并训练暗网站点特征生成模型;
S32,将会话灰度数据输入至训练后的暗网站点特征生成模型,利用深度学习提取Obfs4流量中的暗网站点特征,将提取的暗网站点特征输出。
6.根据权利要求5所述的一种基于半监督聚类学习的暗网站点会话识别方法,其特征在于,步骤S31包括以下步骤:
S311,构建暗网站点特征生成模型:利用CNN网络提取Obfs4流量下的暗网站点特征;
S312,利用有暗网站点标注的Obfs4流量训练暗网站点特征生成模型:将会话灰度图像依次通过3*3的卷积层、2*2池化层、3*3的卷积层、全连接层、输出层进行处理,得到暗网站点特征生成模型识别的结果及其置信度,识别结果包括暗网站点的onion地址、暗网站点的onion地址的置信度,其中,全连接层中使用sigmod函数;通过不断调整暗网站点特征生成模型参数,重复进行训练,直至置信度达到设定的阈值,输出暗网站点特征生成模型识别的结果及其置信度;
S313,删除已训练的暗网站点特征生成模型的全连接层、输出层以及置信度,并将其保存为训练后的暗网站点特征生成模型。
7.根据权利要求6所述的一种基于半监督聚类学习的暗网站点会话识别方法,其特征在于,步骤S4包括以下步骤:
S41,输入未知会话的灰度数据;
S42,利用暗网站点特征生成模型,提取未知会话的特征向量;
S43,将已有暗网站点标签的流量会话数据作为种子集,采用最大期望算法将样本划分为K个簇,计算步骤S41输入的未知会话与每个类簇的距离;其中,K为已知暗网站点的Onion地址数,初始化的集群中心是每个簇类的均值;
S44,得到聚类结果:若该会话与距离最近的类中心距离小于设定阈值,则认为该会话为最近的暗网站点类簇的暗网站点,并对会话进行标注;否则,认为该会话为非已知的暗网站点会话。
8.根据权利要求2至7任一项所述的一种基于半监督聚类学习的暗网站点会话识别方法,其特征在于,步骤S5包括以下步骤:
S51,将聚类结果以图形化结果展示,形成散点类簇图;
S52,通过界面查看是否存在异常类簇,确认异常类簇是否为新的暗网站点;其中,异常类簇指不含有暗网站点标注的类簇;
S53,若确认异常类簇为新的暗网站点,则结合人工经验,标注出异常类簇对应的暗网站点onion地址,并将标注后的暗网站点onion地址添加至步骤S1中的带暗网站点标记的流量样本数据中。
9.一种基于半监督聚类学习的暗网站点会话识别系统,其特征在于,基于权利要求2至8任一项所述的一种基于半监督聚类学习的暗网站点会话识别方法,包括依次电相连的以下模块:
Obfs4流量采集与暗网站点标注模块:用以,利用配置有Obfs4插件的Tor浏览器访问不同的暗网站点,在客户端采集Obfs4流量的数据,并在pcap文件的文件名中标出访问的onion地址,得到带暗网站点标记的流量样本数据;
Obfs4流量预处理模块:用以,对pcap格式的流量数据进行预处理,得到带暗网站点标记的会话样本数据;
暗网站点特征生成模块:用以,基于步骤S2中的带暗网站点标记的会话样本数据,利用深度学习CNN算法提取基于Obfs4流量下的暗网站点特征向量;
半监督聚类模块:用以,基于步骤S2得到的带暗网站点标记的会话样本数据以及S3中提取的基于obfs4流量下的暗网站点特征向量,利用半监督聚类算法对未知会话样本实现暗网站点onion地址的识别;
聚类结果反馈模块:用以,对Obfs4流量的聚类结果进行可视化展示,筛选出异常类簇,并结合人工经验,标注出异常类簇对应的暗网站点onion地址,并将标注后的暗网站点onion地址添加至步骤S1中的带暗网站点标记的流量样本数据中;
Obfs4流量预处理模块还与半监督聚类模块电相连。
CN202210845605.5A 2022-07-19 2022-07-19 一种基于半监督聚类学习的暗网站点会话识别方法及系统 Active CN114915599B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210845605.5A CN114915599B (zh) 2022-07-19 2022-07-19 一种基于半监督聚类学习的暗网站点会话识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210845605.5A CN114915599B (zh) 2022-07-19 2022-07-19 一种基于半监督聚类学习的暗网站点会话识别方法及系统

Publications (2)

Publication Number Publication Date
CN114915599A true CN114915599A (zh) 2022-08-16
CN114915599B CN114915599B (zh) 2022-11-11

Family

ID=82772187

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210845605.5A Active CN114915599B (zh) 2022-07-19 2022-07-19 一种基于半监督聚类学习的暗网站点会话识别方法及系统

Country Status (1)

Country Link
CN (1) CN114915599B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102024179A (zh) * 2010-12-07 2011-04-20 南京邮电大学 一种基于半监督学习的ga-som聚类方法
CN102546625A (zh) * 2011-12-31 2012-07-04 深圳市永达电子股份有限公司 半监督聚类集成的协议识别系统
US20130100849A1 (en) * 2011-10-20 2013-04-25 Telefonaktiebolaget Lm Ericsson (Publ) Creating and using multiple packet traffic profiling models to profile packet flows
CN107808000A (zh) * 2017-11-13 2018-03-16 哈尔滨工业大学(威海) 一种暗网数据采集与抽取系统及方法
CN111814068A (zh) * 2020-05-19 2020-10-23 中国电子科技集团公司第三十研究所 一种ZeroNet博客及论坛文本抓取及分析方法
WO2020249972A1 (en) * 2019-06-14 2020-12-17 Thinksono Ltd Method and system for confidence estimation of a trained deep learning model
CN112183577A (zh) * 2020-08-31 2021-01-05 华为技术有限公司 一种半监督学习模型的训练方法、图像处理方法及设备
CN113191148A (zh) * 2021-04-30 2021-07-30 西安理工大学 一种基于半监督学习和聚类的轨道交通实体识别方法
CN113849759A (zh) * 2021-11-29 2021-12-28 中国电子科技集团公司第三十研究所 一种基于图像特征的暗网站点用户关联方法
CN114124463A (zh) * 2021-10-27 2022-03-01 中国电子科技集团公司第三十研究所 基于网络行为特征的暗网加密应用服务识别方法及系统
CN114124467A (zh) * 2021-10-29 2022-03-01 中国电子科技集团公司第三十研究所 开放网络模式下FreeNet匿名流量检测方法及系统
CN114168860A (zh) * 2021-11-18 2022-03-11 中国电子科技集团公司第三十研究所 一种基于网络特征的暗网站点用户关联方法及装置

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102024179A (zh) * 2010-12-07 2011-04-20 南京邮电大学 一种基于半监督学习的ga-som聚类方法
US20130100849A1 (en) * 2011-10-20 2013-04-25 Telefonaktiebolaget Lm Ericsson (Publ) Creating and using multiple packet traffic profiling models to profile packet flows
CN102546625A (zh) * 2011-12-31 2012-07-04 深圳市永达电子股份有限公司 半监督聚类集成的协议识别系统
CN107808000A (zh) * 2017-11-13 2018-03-16 哈尔滨工业大学(威海) 一种暗网数据采集与抽取系统及方法
WO2020249972A1 (en) * 2019-06-14 2020-12-17 Thinksono Ltd Method and system for confidence estimation of a trained deep learning model
CN111814068A (zh) * 2020-05-19 2020-10-23 中国电子科技集团公司第三十研究所 一种ZeroNet博客及论坛文本抓取及分析方法
CN112183577A (zh) * 2020-08-31 2021-01-05 华为技术有限公司 一种半监督学习模型的训练方法、图像处理方法及设备
CN113191148A (zh) * 2021-04-30 2021-07-30 西安理工大学 一种基于半监督学习和聚类的轨道交通实体识别方法
CN114124463A (zh) * 2021-10-27 2022-03-01 中国电子科技集团公司第三十研究所 基于网络行为特征的暗网加密应用服务识别方法及系统
CN114124467A (zh) * 2021-10-29 2022-03-01 中国电子科技集团公司第三十研究所 开放网络模式下FreeNet匿名流量检测方法及系统
CN114168860A (zh) * 2021-11-18 2022-03-11 中国电子科技集团公司第三十研究所 一种基于网络特征的暗网站点用户关联方法及装置
CN113849759A (zh) * 2021-11-29 2021-12-28 中国电子科技集团公司第三十研究所 一种基于图像特征的暗网站点用户关联方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
何永忠等: "基于云流量混淆的Tor匿名通信识别方法", 《工程科学与技术》 *

Also Published As

Publication number Publication date
CN114915599B (zh) 2022-11-11

Similar Documents

Publication Publication Date Title
CN111865815B (zh) 一种基于联邦学习的流量分类方法及系统
CN109639481A (zh) 一种基于深度学习的网络流量分类方法、系统及电子设备
CN112564974B (zh) 一种基于深度学习的物联网设备指纹识别方法
CN109104441A (zh) 一种基于深度学习的加密恶意流量的检测系统和方法
CN111385297B (zh) 无线设备指纹识别方法、系统、设备及可读存储介质
CN106657141A (zh) 基于网络流量分析的安卓恶意软件实时检测方法
CN110868409A (zh) 一种基于tcp/ip协议栈指纹的操作系统被动识别方法及系统
CN113206860B (zh) 一种基于机器学习和特征选择的DRDoS攻击检测方法
CN102307123A (zh) 基于传输层流量特征的nat流量识别方法
CN103023725A (zh) 一种基于网络流量分析的异常检测方法
CN109299742A (zh) 自动发现未知网络流的方法、装置、设备及存储介质
CN107370752A (zh) 一种高效的远控木马检测方法
Dowoo et al. PcapGAN: Packet capture file generator by style-based generative adversarial networks
CN105302885A (zh) 一种全文数据的提取方法和装置
CN112003869A (zh) 一种基于流量的漏洞识别方法
Wu et al. TDAE: Autoencoder-based automatic feature learning method for the detection of DNS tunnel
CN113438332B (zh) 一种DoH服务标识方法及装置
CN113726561A (zh) 利用联邦学习训练卷积神经网络的业务类型识别方法
CN113938290A (zh) 一种用户侧流量数据分析的网站去匿名方法和系统
CN114915599B (zh) 一种基于半监督聚类学习的暗网站点会话识别方法及系统
CN113726809B (zh) 基于流量数据的物联网设备识别方法
CN111756874A (zh) 一种dns隧道上层协议的类型的识别方法和装置
CN101764754A (zh) 基于dpi和dfi的业务识别系统中的样本获取方法
CN111310796A (zh) 一种面向加密网络流的Web用户点击识别方法
CN110351266A (zh) 基于神经网络的识别网络黑产ip的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant