CN114499983B - Tor流量检测方法、装置、终端设备及存储介质 - Google Patents

Tor流量检测方法、装置、终端设备及存储介质 Download PDF

Info

Publication number
CN114499983B
CN114499983B CN202111636260.4A CN202111636260A CN114499983B CN 114499983 B CN114499983 B CN 114499983B CN 202111636260 A CN202111636260 A CN 202111636260A CN 114499983 B CN114499983 B CN 114499983B
Authority
CN
China
Prior art keywords
data
attention
message data
message
multidimensional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111636260.4A
Other languages
English (en)
Other versions
CN114499983A (zh
Inventor
兰亭洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing 6Cloud Technology Co Ltd
Beijing 6Cloud Information Technology Co Ltd
Original Assignee
Beijing 6Cloud Technology Co Ltd
Beijing 6Cloud Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing 6Cloud Technology Co Ltd, Beijing 6Cloud Information Technology Co Ltd filed Critical Beijing 6Cloud Technology Co Ltd
Priority to CN202111636260.4A priority Critical patent/CN114499983B/zh
Publication of CN114499983A publication Critical patent/CN114499983A/zh
Application granted granted Critical
Publication of CN114499983B publication Critical patent/CN114499983B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种Tor流量检测方法、装置、终端设备及存储介质,该方法包括:抓取现网流量中的报文数据,该报文数据中包括多个报文数据包;对各报文数据包进行多维特征提取处理,得到所述报文数据的多维特征数据,并将所述报文数据输入至经过预训练的注意力机制,得到所述报文数据的注意力编码数据;将所述多维特征数据与所述注意力编码数据进行拼接整合处理,得到目标特征数据;基于所述目标特征数据检测现网流量中是否存在Tor流量。本发明通过注意力机制融合报文数据包的前后信息,添加对报文数据不同维度特征数据的注意力,提高对报文数据局部特征的注意,放大正常流量和Tor流量特征的区别,提高了对Tor流量的检测精度和检测效率。

Description

Tor流量检测方法、装置、终端设备及存储介质
技术领域
本发明涉及通信技术领域,尤其涉及一种Tor流量检测方法、装置、终端设备及存储介质。
背景技术
1995年,美国海军研究实验室(NRL)为了保护船只之间的通讯网络安全、避免信号被跟踪,开发出了一项旨在通过代理服务器进行加密数据传输的技术,即被称为“洋葱路由”的Tor(The second generation Onion Routing)技术。一般情况下,当终端与远程服务器建立连接的时候,会将自己的IP地址泄漏给服务器。而Tor是一种“代理节点快速动态变化的加密三重代理”,可以在一定程度上做到匿名,正是基于Tor技术的匿名性,产生了越来越多的恶意软件和非法交易,所以在网络安全中对Tor流量的检测具有重要意义。
由于Tor流量在各个代理节点的传输是以加密的方式进行的,无法检测其传输内容,又由于Tor技术的数据传输特性,即经过三重代理节点传输,其报文数据包和普通报文数据包区别不明显,因此,现有的对Tor流量的检测方式,大多只能基于传输时间间隔构造大量时间相关的特征,根据构造的时序特征构建机器学习模型实现对Tor流量的检测。但是,基于时序特征构建的模型在线上的流量检测中难以进行测试,因为无法以数据包中的原速率回放流量数据包,由于无法进行回包测试,基于构造的时序特征构建的机器学习模型,在线上流量检测时的性能较差,检测精度不高。同时,基于构造的大量时序特征进行检测时,需要从每个通信节点中提取相同的时序特征并与构造的时序特征进行匹配,检测效率较低。
发明内容
本发明的主要目的在于提供一种Tor流量检测方法、装置、终端设备及存储介质,旨在解决现有的Tor流量检测方法检测精度和检测效率低的技术问题。
此外,为实现上述目的,本发明还提供一种Tor流量检测方法,所述Tor流量检测方法方法包括以下步骤:
抓取现网流量中的报文数据,其中,所述报文数据中包括多个报文数据包;
对所述报文数据中的各所述报文数据包进行多维特征提取处理,得到所述报文数据的多维特征数据,并将所述报文数据输入至经过预训练的注意力机制,得到所述报文数据的注意力编码数据;
将所述多维特征数据与所述注意力编码数据进行拼接整合处理,得到目标特征数据;
基于所述目标特征数据检测现网流量中是否存在Tor流量。
可选地,所述多维特征数据至少包括各所述报文数据包的基本特征数据和统计特征数据,所述对所述报文数据中的各所述报文数据包进行多维特征提取处理,得到所述报文数据的多维特征数据的步骤,包括:
对所述报文数据中的各所述报文数据包进行特征提取,得到各所述报文数据包的基础特征数据;
基于所述基础特征数据对各所述报文数据包进行特征提取和统计分析处理,得到各所述报文数据包的统计特征数据。
可选地,所述注意力机制包括编码层、注意力层和全连接层,所述将所述报文数据输入至经过预训练的注意力机制,得到所述报文数据的注意力编码数据的步骤,包括:
将所述报文数据输入至所述编码层,对所述报文数据进行编码处理,得到第一编码数据,其中,所述编码处理包括内容编码处理和位置编码处理,所述第一编码数据包括多维编码数据和位置编码数据;
将所述多维编码数据和所述位置编码数据相加后输入至所述注意力层,以添加对所述第一编码数据的注意,得到第二编码数据;
将所述第二编码数据输入至所述全连接层,对所述第二编码数据的特征进行加权求和处理,得到注意力编码数据。
可选地,所述将所述多维编码数据和所述位置编码数据相加后输入至所述注意力层,以添加对所述第一编码数据的注意,得到第二编码数据的步骤,包括:
利用所述注意力层对所述多维编码数据和所述位置编码数据相加后的数据进行线性变换,得到多个特征向量序列;
对各所述特征向量序列进行分头操作,得到多个头信息并基于各所述头信息进行注意力打分,以计算各所述特征向量序列的注意力分布值;
基于所述注意力分布值对各所述特征向量序列进行信息加权和拼接处理,得到第二编码数据。
可选地,所述特征向量序列至少包括查询向量序列、键向量序列和值向量序列。
可选地,所述基于所述目标特征数据检测现网流量中是否存在Tor流量的步骤,包括:
将所述目标特征数据输入至经过预训练的分类检测模型中,根据所述分类检测模型对所述报文数据进行分类;
根据对所述报文数据的分类结果确定现网流量中是否存在Tor流量。
可选地,所述基于所述目标特征数据检测现网流量中是否存在Tor流量的步骤之后,还包括:
输出检测结果,根据所述检测结果若现网流量中存在Tor流量,则输出告警提示信息。
此外,为实现上述目的,本发明还提供一种Tor流量检测方法装置,所述Tor流量检测方法装置包括:
数据抓取模块,用于抓取现网流量中的报文数据,其中,所述报文数据中包括多个报文数据包;
特征提取模块,用于对所述报文数据中的各所述报文数据包进行多维特征提取处理,得到所述报文数据的多维特征数据,并将所述报文数据输入至经过预训练的注意力机制,得到所述报文数据的注意力编码数据,其中,所述注意力机制是基于所述报文数据的历史数据对基础注意力机制模型进行迭代训练得到的;
特征拼接模块,用于将所述多维特征数据与所述注意力编码数据进行拼接整合处理,得到目标特征数据;
流量检测模块,用于基于所述目标特征数据检测现网流量中是否存在Tor流量。
此外,为实现上述目的,本发明还提供一种设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的Tor流量检测方法程序,所述Tor流量检测方法程序被所述处理器执行时实现如上述的Tor流量检测方法方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有Tor流量检测方法程序,所述Tor流量检测方法程序被处理器执行时实现如上述的Tor流量检测方法方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述的Tor流量检测方法方法的步骤。
本发明实施例提出的一种Tor流量检测方法方法、装置、终端设备及存储介质。现有技术基于构造的时序特征对Tor流量进行检测,由于无法进行回包测试,导致对Tor流量的检测精度不该高,本发明实施例中,通过抓取现网流量中的报文数据,其中,所述报文数据中包括多个报文数据包;对所述报文数据中的各所述报文数据包进行多维特征提取处理,得到所述报文数据的多维特征数据,并将所述报文数据输入至经过预训练的注意力机制,得到所述报文数据的注意力编码数据;将所述多维特征数据与所述注意力编码数据进行拼接整合处理,得到目标特征数据;基于所述目标特征数据检测现网流量中是否存在Tor流量。通过特征拼接,利用注意力机制添加对报文数据不同维度的特征数据的注意,融合报文数据包的前后信息,可以加强对报文数据包局部特征的注意力,从而从大量特征数据中快速识别异常特征,检测Tor流量是否存在,提高对Tor流量的检测精度和检测效率。
附图说明
图1为本发明实施例提供的终端设备一种实施方式的硬件结构示意图;
图2为本发明Tor流量检测方法第一实施例的流程示意图;
图3为本发明Tor流量检测方法第二实施例的注意力机制的结构示意图;
图4为本发明Tor流量检测装置一实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身没有特定的意义。因此,“模块”、“部件”或“单元”可以混合地使用。
本发明实施例Tor流量检测终端(又叫终端、设备或者终端设备)可以是PC,也可以是智能手机、平板电脑和便携计算机等具有显示和数据处理功能的可移动式终端设备。
如图1所示,该终端可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
可选地,终端还可以包括摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。其中,传感器比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示屏的亮度,接近传感器可在移动终端移动到耳边时,关闭显示屏和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别移动终端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;当然,移动终端还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
本领域技术人员可以理解,图1中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及Tor流量检测程序。
在图1所示的终端中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的Tor流量检测程序,所述Tor流量检测程序被处理器执行时实现下述实施例提供的Tor流量检测方法中的操作。
基于上述设备硬件结构,提出了本发明Tor流量检测方法的各个实施例。
需要说明的是,随着通信技术的发展,越来越多的恶意软件基于Tor技术的隐匿性进行传播,威胁网络通信安全,一些非正常交易行为也基于Tor技术进行,使得对非正常交易行为的溯源变得异常困难,而最直接也最有效的方式,是在恶意软件的分发过程或非正常交易进行过程中,就检测到其流量的存在并加以阻止,终止恶意软件的分发或中断非正常交易行为的进行,而检测恶意软件和非正常交易行为的关键,在于对恶意软件分发或非正常交易行为进行时产生的Tor流量的检测。现有的检测方式,大多是基于流量的时序特性构造时序特征,并基于构造的时序特征训练机器学习模型,经过训练的模型由于无法对抓取的报文数据进行回包测试,即以原传输速率回放流量数据包的传输过程对经过训练的机器学习模型进行测试,导致模型在线上的检测性能较差。同时,事先需要耗费大量工作构造检测所需的时序特征,在线上检测时,需要抓取每个节点的流量数据并从中提取与构造时序特征相同的特征,与构造的时序特征进行匹配,检测效率低。进一步地,事先设计的特征可能在当前的检测中具有较好的效果,但Tor流量的变化性较强,未来Tor网络的任何更改都可能会使构造的特征失效,影响模型的检测准确性。
基于此,本发明提出了一种基于注意力机制的Tor流量检测方法,利用注意力机制加强对流量数据局部特征的注意,能够更加及时准确地发现Tor流量的存在,提高对Tor流量的检测精度和检测效率。具体地,参照图2,图2为本发明Tor流量检测方法第一实施例的流程示意图,在本发明Tor流量检测方法的第一实施例中,所述Tor流量检测方法包括:
步骤S10,抓取现网流量中的报文数据,其中,所述报文数据中包括多个报文数据包;
在本实施例中,对Tor流量进行检测时,首先抓取现网流量中的报文数据,该报文数据包括多个报文数据包,需要说明的是,本实施例中抓取的报文数据,是从现网流量的TCP层抓取的包含正常流量和Tor流量数据包的原始数据,抓取的报文数据包是现网中各个通信节点之间在建立通信连接后,用于发送待传输数据的双向流量报文。进一步地,抓取的报文数据包格式如下所示:
[01,bb,f0,fc,d1,2c,b0,9f,8d,c8,ff,07,50,10,3c,b8,8d,bc,00,00]
进一步地,上述报文数据包的格式仅用于示例性说明,在实际应用中,不同的通信节点之间基于不同的通信协议,其报文数据包的格式如数据包长度等可能不同。
步骤S20,对所述报文数据中的各所述报文数据包进行多维特征提取处理,得到所述报文数据的多维特征数据,并将所述报文数据输入至经过预训练的注意力机制,得到所述报文数据的注意力编码数据;
对抓取的报文数据中的各个报文数据包进行多维特征提取处理,得到报文数据中各报文数据包不同维度的特征数据,即多维特征数据。将抓取的报文数据输入至经过预训练的注意力机制中,添加对报文数据中各个报文数据包的注意力,得到各个报文数据包的注意力编码数据。
需要说明的是,经过预训练的注意力机制是基于报文数据的历史数据对预设的基础注意力机制模型进行预训练得到的,在对预设的基础注意力机制模型进行训练时,由于Tor流量大部分都是加密流量,因此,构造的训练集是从TCP层抓取的通信节点握手阶段之后的双向流量报文各n个,因此,在实际检测时,只需要抓取通信节点在握手阶段之后,基于建立的通信连接进行数据传输时的报文数据包即可,不需要抓取建立通信连接阶段时的报文数据包,则可以减少检测时需要抓取和处理的数据包数量,进而可以提高检测效率。将双向流量报文的数据包首尾相连拼接输入至预设的基础注意力模型中,对基础注意力模型进行预训练,得到经过预训练的注意力机制,而注意力编码数据是基于经过预训练的注意力机制编码后得到的抽象特征数据。
步骤S30,将所述多维特征数据与所述注意力编码数据进行拼接整合处理,得到目标特征数据;
步骤S40,基于所述目标特征数据检测现网流量中是否存在Tor流量。
将提取的多维特征数据与注意力编码数据进行拼接整合处理,得到目标特征数据,通过特征拼接得到的目标特征数据,是将对报文数据的注意力添加至报文数据的多维特征数据中,从而可以提高对报文数据局部特征的关注度,这种经过注意力机制预训练模型获取到的注意力编码数据,放大了正常流量和Tor流量特征的区别,因此,基于得到的目标特征数据可以快速发现异常特征,进而检测到Tor流量的存在。
通过特征工程提取多维特征数据,并基于注意力机制添加对报文数据的注意力,通过特征拼接提高对报文数据多维特征数据中的局部特征的注意力,在进行检测时,将注意力机制提取的特征与报文数据包的多维特征一起输入到经过预训练的分类检测模型中,其中,注意力机制提取的抽象特征更加充分,因为考虑到了不同维度的特征和局部注意力,提取的特征更加抽象,有利于分类检测模型区分正常流量的和Tor流量,从而实现对Tor流量的精确检测。
进一步地,步骤S40中,基于目标特征数据检测现网流量中是否存在Tor流量的细化,包括:
步骤S401,将所述目标特征数据输入至经过预训练的分类检测模型中,根据所述分类检测模型对所述报文数据进行分类;
步骤S402,根据对所述报文数据的分类结果确定现网流量中是否存在Tor流量。
在基于目标特征数据检测现网流量中是否存在Tor流量时,是将目标特征数据输入至经过预训练的分类检测模型中进行检测的,具体地,分类检测模型根据目标特征数据中不同特征的注意力,对报文数据中的各个数据包进行分类,得到各报文数据包的类别概率,基于该类别概率确定各数据包对应的类型,进而确定是否存在Tor流量。进一步地,经过预训练的分类检测模型包括二分类模型和多分类模型,可以根据实际需要进行设置,不同的分类检测模型设置不同的激活函数,并构建不同的样本数据集进行训练即可,在此不作具体限制。以二分类模型为例,基于目标特征数据对报文数据进行分类检测时,得到各报文数据包是正常流量数据包的概率和/或是Tor流量数据包的概率,根据得到的类别概率和设定的概率阈值,确定现网流量中是否存在Tor流量。具体地,当报文数据包是正常流量数据包的概率大于设定的第一概率阈值时,即视为该报文数据包对应的类别为正常流量,则将其分类为正常流量,当报文数据包是Tor流量数据包的概率大于设定的第二概率阈值时,则视为该报文数据包是Tor流量数据包,将其分类为Tor流量,设定的第一概率阈值和第二概率阈值可以相同,也可以不同,在此同样不作限定。
进一步地,基于目标特征数据对Tor流量进行检测之后,还包括:
步骤A1,输出检测结果,根据所述检测结果若现网流量中存在Tor流量,则输出告警提示信息。
输出对Tor流量的检测结果,该检测结果例如“当前网络流量中不存在Tor流量”或“当前网络流量中可能存在Tor流量”等,当检测结果为现网流量中可能存在Tor流量时,输出告警提示信息,以提醒相关人员及时采取措施,对Tor流量进行相关处理,其中,输出的告警提示信息例如“当前网络流量中可能存在Tor流量,请及时处理”,可知地,输出的检测结果或告警提示信息中,还可以包含或关联检测到的Tor流量的报文数据包信息,以便于相关人员进行处理。
进一步地,当现网流量中不存在Tor流量时,为正常情况,可以不进行告警提示,因此,可以只设定存在Tor流量的告警阈值进行异常告警。以设定报文数据包为Tor流量的告警阈值为0.5为例,根据分类检测模型输出的概率值,如报文数据包是Tor流量的概率值大于或等于0.5,则为可能存在Tor流量,输出告警提示信息,以提醒相关人员及时采取措施。当报文数据包是Tor流量的概率值小于0.5时,则丢弃,说明现网流量中不存在Tor流量,报文数据包为正常流量的概率值大于0.5,可以不进行告警提示。需要说明的是,本实施例中对告警阈值同样不做具体限制,可以根据现网环境的告警需要对告警阈值进行自定义设置。
在本实施例中,通过抓取现网流量中的报文数据,其中,所述报文数据中包括多个报文数据包;对所述报文数据中的各报文数据包进行多维特征提取处理,得到所述报文数据包的多维特征数据,并将所述报文数据输入至经过预训练的注意力机制,得到所述报文数据的注意力编码数据;将所述多维特征数据与所述注意力编码数据进行拼接整合处理,得到目标特征数据;基于所述目标特征数据检测现网流量中是否存在Tor流量。通过特征拼接,利用注意力机制添加对报文数据不同维度的特征数据的注意,融合报文数据包的前后信息,可以加强对报文数据包局部特征的注意力,放大正常流量和Tor流量特征的区别,从而从大量特征数据中快速识别异常特征,检测Tor流量是否存在,提高对Tor流量的检测精度和检测效率。
进一步地,在本发明上述实施例的基础上,提出了本发明Tor流量检测方法的第二实施例。
本实施例是第一实施例中步骤S20细化的步骤,基于上述实施例,本实施例中要对报文数据中的各个报文数据包分别进行多维特征提取处理,以及利用注意力机制添加对报文数据中各报文数据包的注意。具体地,提取的多维特征数据至少包括各报文数据包的基本特征数据和统计特征数据,对报文数据中的各报文数据包进行多维特征提取处理的步骤,包括:
步骤S201,对所述报文数据中的各所述报文数据包进行特征提取,得到各所述报文数据包的基础特征数据;
步骤S202,基于所述基础特征数据对各所述报文数据包进行特征提取和统计分析处理,得到各所述报文数据包的统计特征数据。
在本实施例中,提取的多维特征数据包括各报文数据包的基本特征数据和统计特征数据,其中,基本特征数据是基于各报文数据包自身的信息进行特征提取得到的数据,例如数据包长度、发送间隔时长、数据量大小等,统计特征数据是基于多个报文数据包的基础特征数据进行统计得到的数据,例如,从抓取的报文数据中,识别任意两个通信节点之间发送的多个双向流量报文数据包,基于提取的各个双向流量报文数据包的基础特征数据进行统计,得到选取的两个通信节点之间的双向流量报文数据包的统计特征数据。
基于此,在对报文数据中的各报文数据包进行多维特征提取时,首先对各报文数据包进行特征提取,得到各报文数据包对应的基础特征数据,然后基于各报文数据包的基础特征数据,按照预设的划分规则进行特征提取和统计分析处理,得到各个报文数据数据包对应的统计特征数据。
进一步地,参照图3,在本实施例中,经过预训练的注意力机制包括编码层、注意力层和全连接层,将报文数据输入至注意力机制中,添加对报文数据的注意,得到对应的注意力编码数据的步骤,包括:
步骤S203,将所述报文数据输入至所述编码层,对所述报文数据进行编码处理,得到第一编码数据,其中,所述编码处理包括内容编码处理和位置编码处理,所述第一编码数据包括多维编码数据和位置编码数据;
步骤S204,将所述多维编码数据和所述位置编码数据相加后输入至所述注意力层,以添加对所述第一编码数据的注意,得到第二编码数据;
步骤S205,将所述第二编码数据输入至所述全连接层,对所述第二编码数据的特征进行加权求和处理,得到注意力编码数据。
将报文数据输入至注意力机制时,首先通过编码层对报文数据中的各报文数据包进行编码处理,得到第一编码数据。其中,编码处理包括内容编码和位置编码,内容编码是将报文数据包编码成统一的维度。可以理解的是,不同的通信节点之间基于不同的通信协议,在通信时产生的报文数据包的数据包长度不同,需要对各报文数据包进行内容编码,将各报文数据包编码为统一的格式以便进行后续处理。
在对报文数据进行编码处理后,得到第一编码数据,该第一编码数据包括经过内容编码处理得到的多维编码数据,以及经过位置编码处理得到的位置编码数据,需要说明的是,经过编码处理得到的多维编码数据和位置编码数据包括多个向量序列,每个向量序列包括多个向量,对应不同的报文数据包。将多维编码数据和位置编码数据相加后,输入至注意力层以添加注意,得到新的编码数据,即第二编码数据。具体地,将多维编码数据和位置编码数据相加后输入到注意力层,添加对第一编码数据的注意,得到第二编码数据的步骤,包括:
步骤B1,利用所述注意力层对所述多维编码数据和所述位置编码数据相加后的数据进行线性变换,得到多个特征向量序列;
步骤B2,对各所述特征向量序列进行分头操作,得到多个头信息并基于各所述头信息进行注意力打分,以计算各所述特征向量序列的注意力分布值;
步骤B3,基于所述注意力分布值对各所述特征向量序列进行信息加权和拼接处理,得到第二编码数据。
本实施例中,采用的注意力机制为多头注意力机制,是由多个自注意力机制组成。在添加注意力时,可以利用多个查询平行地计算,从输入数据中选取多个信息,每个注意力关注输入数据的不同部分。在现网流量中,正常流量和Tor流量的报文数据包特征相似,如果基于事先构造的特征进行单一特征匹配,难以准确识别出Tor流量的存在,且当Tor网络更改导致Tor流量更改时,实现构造的部分特征数据可能失效。通过注意力机制关注报文数据包的不同部分,关联其前后信息,可以将添加了注意力的多个不同的特征进行融合,加强特征之间的关联性,提高对Tor流量的检测精度。
在添加对报文数据中各个报文数据包的注意力时,首先对各报文数据包经过编码处理后相加得到的数据进行线性变换,得到多个特征向量序列,其中,得到的特征向量序列至少包括查询向量序列、键向量序列和值向量序列。对得到的各特征向量序列进行分头操作,得到各特征向量序列对应的多个头信息,基于各特征向量序列的头信息对特征向量序列进行注意力打分,进而计算各个特征向量序列的注意力分布值,然后基于计算得到的各个特征向量序列的注意力分布值,对各特征向量序列进行信息加权和拼接处理,得到对应的第二编码数据。具体地,在对各个特征向量序列进行注意力打分,计算得到其对应的注意力分布值时,是对特征向量序列中的各个向量进行注意力打分,得到的注意力分布值表征了该特征向量序列中各向量的注意力得分。在进行信息加权和拼接处理时,基于得到的注意力分布值,对特征向量序列中的各个向量进行信息加权,各向量在进行注意力打分时的得分即为其权重值,然后对加权处理后的特征向量序列中的各向量进行拼接处理,将每个特征向量序列中的多个向量进行拼接,得到第二编码数据。
得到第二编码数据后,将第二编码数据输入到注意力机制的全连接层,利用全连接层对第二编码数据进行加权求和处理,全连接层中设有激活函数,通过全连接层进行加权,对一个经过线性变化的向量叠加一个非线性变化产生输出,放大不同注意力关注的特征数据,从而得到报文数据对应的注意力编码数据。基于得到的注意力编码数据与基于特征工程提取的多维特征数据进行拼接,可以添加对不同维度的特征数据的注意力,便于将不同维度的特征数据进行融合,放大正常流量和Tor流量特征的区别,提高对Tor流量检测的准确性。同时,可以减少对其他注意力较低的特征的关注,减少需要处理和匹配的特征,提高检测效率。
需要说明的是,本实施例中,对报文数据进行多维特征提取处理和添加注意处理的过程是相互独立的,可以同时执行也可以顺序执行,顺序执行时,不限制先后顺序,可以先进行多维特征提取处理,也可以先添加注意,在此不再赘述。
在本实施例中,基于多头注意力机制和多维特征提取,分别得到多维特征数据和注意力编码数据,通过特征拼接添加对报文数据不同维度特征数据的注意力,可以提高对注意力较高的关键特征的关注,减少对其他非关键特征的关注,有利于报文数据包不同特征数据的融合,从而提高对Tor流量的检测准确性。同时,通过提高对部分关键特征的关注,减少对非关键特征的关注,可以减少检测时需要处理的数据量,提高检测效率。
此外,参照图4,本发明实施例还提出一种Tor流量检测装置,所述Tor流量检测装置包括:
数据抓取模块10,用于抓取现网流量中的报文数据,其中,所述报文数据中包括多个报文数据包;
特征提取模块20,用于对所述报文数据中的各所述报文数据包进行多维特征提取处理,得到所述报文数据的多维特征数据,并将所述报文数据输入至经过预训练的注意力机制,得到所述报文数据的注意力编码数据,其中,所述注意力机制是基于所述报文数据的历史数据对基础注意力机制模型进行迭代训练得到的;
特征拼接模块30,用于将所述多维特征数据与所述注意力编码数据进行拼接整合处理,得到目标特征数据;
流量检测模块40,用于基于所述目标特征数据检测现网流量中是否存在Tor流量。
可选地,所述多维特征数据至少包括各所述报文数据包的基本特征数据和统计特征数据,所述特征提取模块20,还用于:
对所述报文数据中的各所述报文数据包进行特征提取,得到各所述报文数据包的基础特征数据;
基于所述基础特征数据对各所述报文数据包进行特征提取和统计分析处理,得到各所述报文数据包的统计特征数据。
可选地,所述注意力机制包括编码层、注意力层和全连接层,所述特征提取模块20,还用于:
将所述报文数据输入至所述编码层,对所述报文数据进行编码处理,得到第一编码数据,其中,所述编码处理包括内容编码处理和位置编码处理,所述第一编码数据包括多维编码数据和位置编码数据;
将所述多维编码数据和所述位置编码数据相加后输入至所述注意力层,以添加对所述第一编码数据的注意,得到第二编码数据;
将所述第二编码数据输入至所述全连接层,对所述第二编码数据的特征进行加权求和处理,得到注意力编码数据。
可选地,所述特征提取模块20,还用于:
利用所述注意力层对所述多维编码数据和所述位置编码数据相加后的数据进行线性变换,得到多个特征向量序列,其中,所述特征向量序列至少包括查询向量序列、键向量序列和值向量序列;
对各所述特征向量序列进行分头操作,得到多个头信息并基于各所述头信息进行注意力打分,以计算各所述特征向量序列的注意力分布值;
基于所述注意力分布值对各所述特征向量序列进行信息加权和拼接处理,得到第二编码数据。
可选地,所述流量检测模块40,还用于:
将所述目标特征数据输入至经过预训练的分类检测模型中,根据所述分类检测模型对所述报文数据进行分类;
根据对所述报文数据的分类结果确定现网流量中是否存在Tor流量。
可选地,所述Tor流量检测装置还包括告警提示模块,用于:
输出检测结果,根据所述检测结果若现网流量中存在Tor流量,则输出告警提示信息。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有Tor流量检测程序,所述Tor流量检测程序被处理器执行时实现上述实施例提供的Tor流量检测方法中的操作。
此外,本发明实施例还提出一种计算机程序产品,包括计算机程序,所述计算机被处理器执行时实现上述实施例提供的Tor流量检测方法中的操作。
本发明设备、计算机程序产品和计算机可读存储介质各实施例,均可参照本发明Tor流量检测方法各个实施例,此处不再赘述。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体/操作/对象与另一个实体/操作/对象区分开来,而不一定要求或者暗示这些实体/操作/对象之间存在任何这种实际的关系或者顺序;术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的。可以根据实际的需要选择中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的Tor流量检测方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (9)

1.一种Tor流量检测方法,其特征在于,所述Tor流量检测方法包括以下步骤:
抓取现网流量中的报文数据,其中,所述报文数据中包括多个报文数据包;
对所述报文数据中的各所述报文数据包进行多维特征提取处理,得到所述报文数据的多维特征数据,并将所述报文数据输入至经过预训练的注意力机制,得到所述报文数据的注意力编码数据;
将所述多维特征数据与所述注意力编码数据进行拼接整合处理,得到目标特征数据;
基于所述目标特征数据检测现网流量中是否存在Tor流量;
所述注意力机制包括编码层、注意力层和全连接层,所述将所述报文数据输入至经过预训练的注意力机制,得到所述报文数据的注意力编码数据的步骤,包括:
将所述报文数据输入至所述编码层,对所述报文数据进行编码处理,得到第一编码数据,其中,所述编码处理包括内容编码处理和位置编码处理,所述第一编码数据包括多维编码数据和位置编码数据;
将所述多维编码数据和所述位置编码数据相加后输入至所述注意力层,以添加对所述第一编码数据的注意,得到第二编码数据;
将所述第二编码数据输入至所述全连接层,对所述第二编码数据的特征进行加权求和处理,得到注意力编码数据。
2.如权利要求1所述的Tor流量检测方法,其特征在于,所述多维特征数据至少包括各所述报文数据包的基本特征数据和统计特征数据,所述对所述报文数据中的各所述报文数据包进行多维特征提取处理,得到所述报文数据的多维特征数据的步骤,包括:
对所述报文数据中的各所述报文数据包进行特征提取,得到各所述报文数据包的基础特征数据;
基于所述基础特征数据对各所述报文数据包进行特征提取和统计分析处理,得到各所述报文数据包的统计特征数据。
3.如权利要求1所述的Tor流量检测方法,其特征在于,所述将所述多维编码数据和所述位置编码数据相加后输入至所述注意力层,以添加对所述第一编码数据的注意,得到第二编码数据的步骤,包括:
利用所述注意力层对所述多维编码数据和所述位置编码数据相加后的数据进行线性变换,得到多个特征向量序列;
对各所述特征向量序列进行分头操作,得到多个头信息并基于各所述头信息进行注意力打分,以计算各所述特征向量序列的注意力分布值;
基于所述注意力分布值对各所述特征向量序列进行信息加权和拼接处理,得到第二编码数据。
4.如权利要求3所述的Tor流量检测方法,其特征在于,所述特征向量序列至少包括查询向量序列、键向量序列和值向量序列。
5.如权利要求1所述的Tor流量检测方法,其特征在于,所述基于所述目标特征数据检测现网流量中是否存在Tor流量的步骤,包括:
将所述目标特征数据输入至经过预训练的分类检测模型中,根据所述分类检测模型对所述报文数据进行分类;
根据对所述报文数据的分类结果确定现网流量中是否存在Tor流量。
6.如权利要求1所述的Tor流量检测方法,其特征在于,所述基于所述目标特征数据检测现网流量中是否存在Tor流量的步骤之后,还包括:
输出检测结果,根据所述检测结果若现网流量中存在Tor流量,则输出告警提示信息。
7.一种Tor流量检测装置,其特征在于,所述Tor流量检测装置包括:
数据抓取模块,用于抓取现网流量中的报文数据,其中,所述报文数据中包括多个报文数据包;
特征提取模块,用于对所述报文数据中的各所述报文数据包进行多维特征提取处理,得到所述报文数据的多维特征数据,并将所述报文数据输入至经过预训练的注意力机制,得到所述报文数据的注意力编码数据;
特征拼接模块,用于将所述多维特征数据与所述注意力编码数据进行拼接整合处理,得到目标特征数据;
流量检测模块,用于基于所述目标特征数据检测现网流量中是否存在Tor流量;
所述注意力机制包括编码层、注意力层和全连接层,所述特征提取模块,还用于:
将所述报文数据输入至所述编码层,对所述报文数据进行编码处理,得到第一编码数据,其中,所述编码处理包括内容编码处理和位置编码处理,所述第一编码数据包括多维编码数据和位置编码数据;
将所述多维编码数据和所述位置编码数据相加后输入至所述注意力层,以添加对所述第一编码数据的注意,得到第二编码数据;
将所述第二编码数据输入至所述全连接层,对所述第二编码数据的特征进行加权求和处理,得到注意力编码数据。
8.一种终端设备,其特征在于,所述终端设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的Tor流量检测程序,所述Tor流量检测程序被所述处理器执行时实现如权利要求1至6中任一项所述的Tor流量检测方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有Tor流量检测程序,所述Tor流量检测程序被处理器执行时实现如权利要求1至6中任一项所述的Tor流量检测方法的步骤。
CN202111636260.4A 2021-12-28 2021-12-28 Tor流量检测方法、装置、终端设备及存储介质 Active CN114499983B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111636260.4A CN114499983B (zh) 2021-12-28 2021-12-28 Tor流量检测方法、装置、终端设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111636260.4A CN114499983B (zh) 2021-12-28 2021-12-28 Tor流量检测方法、装置、终端设备及存储介质

Publications (2)

Publication Number Publication Date
CN114499983A CN114499983A (zh) 2022-05-13
CN114499983B true CN114499983B (zh) 2023-05-23

Family

ID=81509032

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111636260.4A Active CN114499983B (zh) 2021-12-28 2021-12-28 Tor流量检测方法、装置、终端设备及存储介质

Country Status (1)

Country Link
CN (1) CN114499983B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115065560A (zh) * 2022-08-16 2022-09-16 国网智能电网研究院有限公司 基于业务时序特征分析的数据交互防泄漏检测方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110519298B (zh) * 2019-09-19 2021-11-12 北京丁牛科技有限公司 一种基于机器学习的Tor流量识别方法及装置
CN111209933A (zh) * 2019-12-25 2020-05-29 国网冀北电力有限公司信息通信分公司 基于神经网络和注意力机制的网络流量分类方法和装置
CN111147396B (zh) * 2019-12-26 2023-03-21 哈尔滨工程大学 一种基于序列特征的加密流量分类方法
CN113177209B (zh) * 2021-04-19 2023-02-10 北京邮电大学 基于深度学习的加密流量分类方法及相关设备
CN113472809B (zh) * 2021-07-19 2022-06-07 华中科技大学 一种加密恶意流量检测方法、检测系统及计算机设备

Also Published As

Publication number Publication date
CN114499983A (zh) 2022-05-13

Similar Documents

Publication Publication Date Title
US11171977B2 (en) Unsupervised spoofing detection from traffic data in mobile networks
CN111368290B (zh) 一种数据异常检测方法、装置及终端设备
CN110704661B (zh) 一种图像分类方法和装置
WO2015058616A1 (zh) 恶意网站的识别方法和装置
CN113190646B (zh) 一种用户名样本的标注方法、装置、电子设备及存储介质
CN114722937B (zh) 一种异常数据检测方法、装置、电子设备和存储介质
CN114499983B (zh) Tor流量检测方法、装置、终端设备及存储介质
CN115859220A (zh) 数据处理方法、相关装置及存储介质
CN110222706A (zh) 基于特征约简的集成分类方法、装置及存储介质
CN111090877B (zh) 数据生成、获取方法及对应的装置、存储介质
CN114328908A (zh) 一种问答语句质检方法、装置及相关产品
CN112182461A (zh) 网页敏感度的计算方法、装置
CN109450853B (zh) 恶意网站判定方法、装置、终端及服务器
CN116758362A (zh) 图像处理方法、装置、计算机设备及存储介质
CN116778306A (zh) 伪造对象检测方法、相关装置及存储介质
CN105243315B (zh) 用于单一型图片验证码输入的方法、装置及系统
CN113052198A (zh) 一种数据处理方法、装置、设备及存储介质
CN116192527A (zh) 攻击流量检测规则生成方法、装置、设备及存储介质
CN114070610B (zh) Api网关鉴权方法、网关设备及可读存储介质
CN109815744A (zh) 网页篡改的检测方法、装置及存储介质
CN117009328A (zh) 一种基于噪声过滤的模型训练方法、装置以及存储介质
US11567822B2 (en) Method of monitoring closed system, apparatus thereof and monitoring device
CN116483945A (zh) 内容类型检测方法、装置、设备及存储介质
CN110880066B (zh) 特征数据的处理方法、终端、装置及可读存储介质
CN109240986A (zh) 一种日志处理方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant