CN115242496A

CN115242496A - 一种基于残差网络的Tor加密流量应用行为分类方法及装置

Info

Publication number: CN115242496A
Application number: CN202210857605.7A
Authority: CN
Inventors: 刘栋; 吴宣够; 王灿
Original assignee: Anhui University of Technology AHUT
Current assignee: Anhui University of Technology AHUT
Priority date: 2022-07-20
Filing date: 2022-07-20
Publication date: 2022-10-25
Anticipated expiration: 2042-07-20
Also published as: CN115242496B

Abstract

本发明公开了一种基于残差网络的Tor加密流量应用行为分类方法及装置，其方法包括：1)将不同Tor加密流量应用行为类型的pcap文件各自分会话；2)提取时间戳和数据包长度；3)数据预处理；生成相应尺寸的灰度图片；4)赋予标签；5)设计一种残差网络模型，该模型结构从输入开始依次为卷积层、卷积层、3个连续的残差块、全局均值池化层和输出层；6)模型训练和评估；将训练集放入设计好的模型进行训练，设置一定的训练轮数，通过提前终止的方式，得到训练效果最优的轮数，并保存模型。本发明将加密流量分类与深度学习方法相结合，通过神经网络自动提取特征，不断优化调整模型，对Tor加密流量应用行为分类取得了较高的准确率。

Description

一种基于残差网络的Tor加密流量应用行为分类方法及装置

技术领域

本发明属于网络安全领域，具体涉及一种基于残差网络的Tor加密流量应用行为分类方法及装置。

背景技术

随着互联网的不断发展，网络世界中的加密流量占比日益增大；据相关统计，在2021年，加密数据在整个网络流量占比中增加到了80％-90％。现有的常用网络加密技术有SSH隧道、VPN、Tor等；其中，Tor(The Onion Router)由于其特有的多层加密机制，相比于其他类型的加密流量，其应用行为的识别更加具有挑战性，给网络管理带来很大压力。

与一般的加密流量不同，Tor类型加密流量的流量特性更加复杂。原因有两方面，第一，Tor使用block cipher encryption(分组密码加密)，其加密传输流由离散的数据包大小组成；第二，在Tor上，许多流被组合成具有不同数据包大小的合并流。目前大多数对Tor加密流量进行分类的技术都依赖于从流量中提取统计特征，再使用一些基本的机器学习方法，如SVM(支持向量机)、决策树等，缺点是耗时、难以提取出有效特征。最近几年，深度学习被广泛应用于流量识别领域，但还没有较好的方法实现对Tor加密流量应用行为的高精度分类。

发明内容

本发明提供了一种基于残差网络的Tor加密流量应用行为分类方法及装置，可以快速的对网络上的Tor加密流量进行分析，识别出其对应的应用程序的行为，且准确率高。

为达成上述目的，本发明提出如下技术方案：

一种基于残差网络的Tor加密流量应用行为分类方法，包括以下步骤：

(1)将不同Tor加密流量应用行为类型的pcap文件各自分会话；

(2)提取时间戳和数据包长度：从每个会话中提取记录，其中包括会话中每个数据包的成对列表{数据包到达时间，数据包长度}，再以时间跨度提取数据包长度列表；

(3)数据预处理：将提取的数据包长度列表，以数据包到达时间为横坐标，数据包长度为纵坐标，生成相应尺寸的灰度图片；

(4)赋予标签：对数据预处理生成的灰度图片打上相应的标签，内容为图片对应的Tor加密流量应用行为名称；

(5)模型设计；模型结构从输入开始依次为第一卷积层、第二卷积层、3个连续的残差块、全局均值池化层和输出层；

(6)模型训练和评估：将预处理后的数据按比例划分训练集和测试集，将训练集放入设计好的模型进行训练，规定训练轮数，通过提前终止的方式，得到训练效果最优的轮数，并保存模型；将测试集放入训练好的模型，得到分类的准确率。

进一步的，所述步骤(1)中pcap文件分会话的具体过程为：将每个pcap文件拆分为不同的会话，每个会话由5元组{source IP，source port，destination IP，destinationport，protocol}定义；

其中，source IP为五元组信息中源IP，source port为五元组信息中源端口，destination IP为五元组信息中目的IP，destination port为五元组信息中目的端口，protocol为五元组信息中传输层协议。

进一步的，所述步骤(2)中以时间跨度提取数据包长度列表的具体过程为：将会话的所有数据包的时间戳减去第一个数据包的时间戳进行规范化，以t秒为一个时间跨度，提取t秒时间内通过的数据包长度，整合成一个列表，连续提取n段t秒内数据包长度形成的列表；其中，若时间段内没有数据包通过，则列表为空。

进一步的，所述步骤(3)的具体过程为：

构建坐标系：规定横坐标为数据包到达时间，1个单位是t秒，共n个单位，总长度是n*t秒；纵坐标为数据包长度，1个单位是m字节，共n个单位，总长度是n*m字节,其中，n*m>＝1500；

生成灰度图片：将提取的数据包长度列表插入到这个n*n坐标系中，其中每个单元格包含到达相应时间间隔的数据包的长度和数量，并具有相应的大小。

进一步的，所述步骤(6)中轮数提前终止的具体过程为：记录每轮训练的总loss值，判断是否出现连续5次当前轮数训练总loss值大于上一轮数训练总loss值，若存在，则终止训练，保存模型。

进一步的，所述模型的输入为灰度图片，输入通道数为1；

第一层为第一卷积层，使用卷积核自动提取特征，缩小图片尺寸并增加通道数；

第二层为第二卷积层，作用是进一步提取特征；

第三层至第五层为三个递进的残差模块，每个残差模块的输出都是图像尺寸减半，通道数为原来的2倍；

第六层为全局均值池化层；

第七层为输出层。

本发明另一技术方案在于公开一种基于残差网络的Tor加密流量应用行为分类装置，该装置包括：

分会话模块，用于将不同Tor加密流量应用行为类型的pcap文件各自分会话；

提取模块，用于从每个会话中提取记录，其中包括会话中每个数据包的成对列表{数据包到达时间，数据包长度}，再以时间跨度提取数据包长度列表；

数据预处理模块，用于对提取的数据包长度列表，以数据包到达时间为横坐标，数据包长度为纵坐标，生成相应尺寸的灰度图片；

赋予标签模块，用于对数据预处理生成的灰度图片打上相应的标签，内容为图片对应的Tor加密流量应用行为名称；

模型设计模块，用于设计Tor加密流量应用行为分类模型的结构，该模型结构从输入开始依次为第一卷积层、第二卷积层、3个连续的残差块、全局均值池化层和输出层；

模型训练和评估模块，用于将预处理后的数据按比例划分训练集和测试集，将训练集放入设计好的模型进行训练，规定训练轮数，通过提前终止的方式，得到训练效果最优的轮数，并保存模型；将测试集放入训练好的模型，得到分类的准确率。

进一步的，数据预处理模块生成灰度图片的执行单元包括：

构建单元，用于构建坐标系；定义坐标系的横坐标为数据包到达时间，1个单位是t秒，共n个单位，总长度是n*t秒；纵坐标为数据包长度，1个单位是m字节，共n个单位，总长度是n*m字节,其中，n*m>＝1500；

生成单元，用于生成灰度图片，即将提取的数据包长度列表插入到这个n*n坐标系中，其中每个单元格包含到达相应时间间隔的数据包的长度和数量，并具有相应的大小。

本发明又一技术方案在于公开一种电子设备，该设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器运行所述计算机程序时，实现上述的基于残差网络的Tor加密流量应用行为分类方法。

本发明还公开一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现上述的基于残差网络的Tor加密流量应用行为分类方法。

本发明公开的基于残差网络的Tor加密流量应用行为分类方法及装置，获得了如下有益效果：

本发明在深度学习中，通过使用残差网络模型，加深神经网络模型的深度，深度挖掘不同样本的特征。为了解决加深模型深度带来的梯度消失的问题，通过引入残差块的方式，残差块在输入和输出之间建立了一个直接连接，这样新增的层仅仅需要在原来的输入层基础上学习新的特征。这样就可以快速的对网络上的Tor加密流量进行分析，识别出其对应的应用程序的行为，如识别Tor加密后的Skype应用上的即时消息、语音通话、视频通话和文件传输等行为。

应当理解，前述构思以及在下面更加详细地描述的额外构思的所有组合只要在这样的构思不相互矛盾的情况下都可以被视为本公开的发明主题的一部分。

结合附图从下面的描述中可以更加全面地理解本发明教导的前述和其他方面、实施例和特征。本发明的其他附加方面例如示例性实施方式的特征和/或有益效果将在下面的描述中显见，或通过根据本发明教导的具体实施方式的实践中得知。

附图说明

附图不意在按比例绘制。在附图中，在各个图中示出的每个相同或近似相同的组成部分可以用相同的标号表示。为了清晰起见，在每个图中，并非每个组成部分均被标记。现在，将通过例子并参考附图来描述本发明的各个方面的实施例，其中：

图1是本发明中方法流程图；

图2是本发明中装置示意图；

图3是本发明中模型设计流程图；

图4是本发明中残差模块示意图。

具体实施方式

为了更了解本发明的技术内容，特举具体实施例并配合所附图式说明如下。

在本公开中参照附图来描述本发明的各方面，附图中示出了许多说明的实施例。本公开的实施例不定义包括本发明的所有方面。应当理解，上面介绍的多种构思和实施例，以及下面更加详细地描述的那些构思和实施方式可以以很多方式中任意一种来实施，这是因为本发明所公开的构思和实施例并不限于任何实施方式。另外，本发明公开的一些方面可以单独使用，或者与本发明公开的其他方面的任何适当组合来使用。

本发明公开的基于残差网络的Tor加密流量应用行为分类方法，包括如下步骤：

步骤S102，将不同Tor加密流量应用行为类型的pcap文件各自分会话；

步骤S104，从每个会话中提取{数据包到达时间，数据包长度}的成对列表，再以时间跨度提取数据包长度列表；

步骤S106，将上述数据包长度列表，以数据包到达时间为横坐标，数据包长度为纵坐标，生成相应尺寸的灰度图片；

步骤S108，对上述灰度图片打上相应的标签，内容为图片对应的Tor加密流量应用行为名称；

步骤S110，设计模型，结构从输入开始依次为第一卷积层、第二卷积层、3个连续的残差块、全局均值池化层和输出层；

步骤S112，模型训练和评估：将预处理后的灰度图片按比例划分训练集和测试集，将训练集放入设计好的模型进行训练，规定训练轮数，通过提前终止的方式，得到训练效果最优的轮数，并保存模型；将测试集放入训练好的模型，得到分类的准确率。

本发明将加密流量分类与深度学习方法相结合，通过神经网络自动提取特征，不断优化调整模型，对于分类多种不同类型的Tor加密流量应用行为，在测试集上达到了97％的准确率。

下面结合附图所示的实施例，对本发明公开的基于残差网络的Tor加密流量应用行为分类方法及装置作进一步具体介绍。

本实施例公开的基于残差网络的Tor加密流量应用行为分类方法原则上可分为三个模块：数据包长度提取模块、灰度图片生成模块、模型设计模块。

所述数据包长度提取模块用于提取数据包长度，包含如下内容：

在步骤S102中，根据五元组信息将不同应用行为类型的pcap文件分别分会话。即，将每个pcap文件拆分为不同的会话，每个会话由5元组{source IP，source port，destination IP，destination port，protocol}定义；其中，source IP为五元组信息中源IP，source port为五元组信息中源端口，destination IP为五元组信息中目的IP，destination port为五元组信息中目的端口，protocol为五元组信息中传输层协议。

在步骤S104中，以时间跨度提取数据包长度列表的具体过程为：将会话的所有数据包的时间戳减去第一个数据包的时间戳进行规范化，以t秒为一个时间跨度，提取t秒时间内通过的数据包长度，整合成一个列表(若时间段内没有数据包通过，则列表为空)，连续提取n段t秒内数据包长度形成的列表。

进而在步骤S106中实现将步骤S104中生成的列表处理成灰度图片的格式。灰度图片包含n*n个像素点，其中白色点的像素值为255，深色点的像素值为0～254，其中0表示全黑。根据图片像素点构建坐标系，定义图片的横坐标为数据包到达时间、纵坐标为数据包的长度，横坐标的单位为t秒，共n个单位，总长度是n*t秒，纵坐标的单位为m字节，共n个单位，总长度是n*m字节，n*m>＝1500，1500为以太网MTU值；每个纵坐标刻度包含m个不同的数据包长度，比如当n＝200时，纵坐标0，代表1～8字节，纵坐标1，代表9～16字节；图片中每个单元格的值由到达相应时间间隔的数据包的长度和数量决定，比如转换为各数据包长度代表值和其数量乘积的累加。

步骤S110实现残差网络模型的设计，包含如下内容：残差网络模型架构如图3所示，从输入开始依次为第一卷积层，第二卷积层，3个连续的残差块，全局均值池化层，输出层。传统的卷积神经网络随着层数加深到一定程度之后，越深的网络反而效果更差，即网络退化问题，其本质是梯度消失或梯度爆炸。而残差网络中由于残差块的存在，在输入和输出之间建立一个直接连接，其恒等映射机制可以无损地传播梯度，有效解决了梯度消失或梯度爆炸的问题。

残差网络模型的输入为灰度图片，即单通道二维n*n矩阵的像素图像；模型的第一层是第一卷积层，为一二维卷积层，使用大小为k*k的卷积核自动提取特征，通过下采样缩小图片尺寸，增加感受野，并且通过增加通道数提高网络提取特征的能力。第二层是第二卷积层，也采用一二维卷积层，用于进一步提取特征，增加通道数。之后使用ReLU(Rectifiedlinear unit，即线性修正单元)激活函数，作用是促进了网络的稀疏性，缓解过拟合现象，减少反向传播时的计算量。

接下来的第三层至第五层是3个连续的残差块，如图3中残差块1～3，残差块结构如图4所示；其中参数x表示上层的输出，weight layer表示权重层，F(x)表示残差(趋近于0)，F(x)+x表示残差块的输出；F(x)为学习到的残差，在数理统计中指实际观察值与估计值之间的差，这里指输入和输出之间的差。图中过程为，输入x经过2个权重层训练后得到F(x)，再将x经过identity(恒等映射)，使映射后x的尺寸和通道数与F(x)一致，最终输出为F(x)+x。

对于一个由几个权重层堆积而成的堆积层结构，当输入为x时，其学习到的特征记为H(x)。一般的堆积层结构直接学习x得到H(x)，而残差块学习输入、输出之间的残差，相对来说更加容易。残差块相较于一般的堆积层结构具有两大优势，其一恒等映射在输入和输出之间建立了一条直接的关联通道，其二强大的权重层集中学习输入和输出之间的残差。本发明中每个残差块的输出都是图像尺寸减半，通道数变为原来的2倍。

第六层是全局均值池化层，相比于使用flatten层，它保留了特征图的空间位置信息，减少了参数的数量，减少了计算量，缓解了过拟合现象。最后第七层为输出层，其大小取决于最终分类类别数。

所述步骤S112中轮数提前终止的目的是得到最优的训练轮数，防止出现过拟合的现象，即在训练集上的准确率很高，而测试集上的准确率很差；实施例中，轮数提前终止的具体过程为：记录每轮训练的总loss值，判断是否出现连续5次当前轮数训练总loss值大于上一轮数训练总loss值，若存在，则终止训练，保存模型。

本实施例将加密流量分类与深度学习方法相结合，通过神经网络自动提取特征，不断优化调整模型，对于分类多种不同类型的Tor加密流量应用行为，取得了较高的准确率。

在本发明的实施例中，还提供一种电子设备，该设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器运行所述计算机程序时实现以上实施例中的基于残差网络的Tor加密流量应用行为分类方法。

上述程序可以运行在处理器中，或者也可以存储在存储器中，即计算机可读介质中，计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体，如调制的数据信号和载波。

这些计算机程序也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤，对应于不同的方法步骤可以通过不同的模块来实现。

在本实施例中，就提供了这样一种装置，该装置可以称为一种基于残差网络的Tor加密流量应用行为分类装置，如图2所示，该装置包括：分会话模块，用于将不同Tor加密流量应用行为类型的pcap文件各自分会话；提取模块，用于从每个会话中提取记录，其中包括会话中每个数据包的成对列表{数据包到达时间，数据包长度}，再以时间跨度提取数据包长度列表；数据预处理模块，用于对提取的数据包长度列表，以数据包到达时间为横坐标，数据包长度为纵坐标，生成相应尺寸的灰度图片；赋予标签模块，用于对数据预处理生成的灰度图片打上相应的标签，内容为图片对应的Tor加密流量应用行为名称；模型设计模块，用于设计Tor加密流量应用行为分类模型的结构，该模型结构从输入开始依次为第一卷积层、第二卷积层、3个连续的残差块、全局均值池化层和输出层；模型训练和评估模块，用于将预处理后的数据按比例划分训练集和测试集，将训练集放入设计好的模型进行训练，规定训练轮数，通过提前终止的方式，得到训练效果最优的轮数，并保存模型；将测试集放入训练好的模型，得到分类的准确率。

该装置用于实现上述实施例中基于残差网络的Tor加密流量应用行为分类方法的步骤，已经进行说明的，在此不再赘述。

例如，作为一可选的实施例，数据预处理模块生成灰度图片的执行单元包括：构建单元，用于构建坐标系；定义坐标系的横坐标为数据包到达时间，1个单位是t秒，共n个单位，总长度是n*t秒；纵坐标为数据包长度，1个单位是m字节，共n个单位，总长度是n*m字节,其中，n*m>＝1500；生成单元，用于生成灰度图片，即将提取的数据包长度列表插入到这个n*n坐标系中，其中每个单元格包含到达相应时间间隔的数据包的长度和数量，并具有相应的大小。

本发明公开的方法及装置，通过使用残差网络模型，在输入和输出之间建立了一个直接连接，加深神经网络模型的深度，深度挖掘不同样本的特征，实现快速的对网络上的Tor加密流量进行分析，识别出其对应的应用程序的行为，不仅提升Tor加密流量应用行为分类的准确性，还提升分类的速率。虽然本发明已以较佳实施例揭露如上，然其并非用以限定本发明。本发明所属技术领域中具有通常知识者，在不脱离本发明的精神和范围内，当可作各种的更动与润饰。因此，本发明的保护范围当视权利要求书所界定者为准。

Claims

1.一种基于残差网络的Tor加密流量应用行为分类方法，其特征在于，包括如下步骤：

(1)将不同Tor加密流量应用行为类型的pcap文件各自分会话；

2.根据权利要求1所述的基于残差网络的Tor加密流量应用行为分类方法，其特征在于，所述步骤(1)中pcap文件分会话的具体过程为：将每个pcap文件拆分为不同的会话，每个会话由5元组{source IP，source port，destination IP，destination port，protocol}定义；

其中，sourceIP为五元组信息中源IP，source port为五元组信息中源端口，destinationIP为五元组信息中目的IP，destination port为五元组信息中目的端口，protocol为五元组信息中传输层协议。

3.根据权利要求1所述的基于残差网络的Tor加密流量应用行为分类方法，其特征在于，所述步骤(2)中以时间跨度提取数据包长度列表的具体过程为：将会话的所有数据包的时间戳减去第一个数据包的时间戳进行规范化，以t秒为一个时间跨度，提取t秒时间内通过的数据包长度，整合成一个列表，连续提取n段t秒内数据包长度形成的列表；其中，若时间段内没有数据包通过，则列表为空。

4.根据权利要求1所述的基于残差网络的Tor加密流量应用行为分类方法，其特征在于，所述步骤(3)的具体过程为：

5.根据权利要求1所述的基于残差网络的Tor加密流量应用行为分类方法，其特征在于，所述步骤(6)中轮数提前终止的具体过程为：记录每轮训练的总loss值，判断是否出现连续5次当前轮数训练总loss值大于上一轮数训练总loss值，若存在，则终止训练，保存模型。

6.根据权利要求1所述的基于残差网络的Tor加密流量应用行为分类方法，其特征在于，所述模型的输入为灰度图片，输入通道数为1；

第二层为第二卷积层，作用是进一步提取特征；

第六层为全局均值池化层；

第七层为输出层。

7.一种基于残差网络的Tor加密流量应用行为分类装置，其特征在于，包括：

8.根据权利要求7所述的基于残差网络的Tor加密流量应用行为分类装置，其特征在于，所述数据预处理模块生成灰度图片的执行单元包括：

9.一种电子设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器运行所述计算机程序时，实现如权利要求1-6中任一项所述的基于残差网络的Tor加密流量应用行为分类方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1-6中任一项所述的基于残差网络的Tor加密流量应用行为分类方法。