CN116055224A

CN116055224A - 基于时空超图卷积的加密应用程序行为流量检测方法

Info

Publication number: CN116055224A
Application number: CN202310314700.7A
Authority: CN
Inventors: 韩晓晖; 刘伟华; 左文波; 罗雪姣; 刘洋; 崔斌
Original assignee: Qilu University of Technology; Shandong Computer Science Center National Super Computing Center in Jinan
Current assignee: Qilu University of Technology; Shandong Computer Science Center National Super Computing Center in Jinan
Priority date: 2023-03-29
Filing date: 2023-03-29
Publication date: 2023-05-02
Anticipated expiration: 2043-03-29
Also published as: CN116055224B

Abstract

一种基于时空超图卷积的加密应用程序行为流量检测方法，涉及网络安全领域，首先，通过捕获加密应用程序行为流量，然后通过使用CICFlowMeter提取流量的流特征数据，然后对这些特征数据进行清洗。分别将这些特征数据输入到GRU和1DCNN中，其中GRU可以很好地捕获加密流量的时序特征信息，1DCNN可以有效地捕获加密流量的空间特征信息。接下来，将这些捕获到的时序特征信息和空间特征信息进行融合，构建超图结构。构建超图后，我们将其输入到改进的超图卷积中，可以很好地学到流之间的多元关系信息，进而提升了模型的精度和泛化能力，改进的超图卷积学到的结构信息也具有更好的鲁棒性。

Description

基于时空超图卷积的加密应用程序行为流量检测方法

技术领域

本发明涉及网络安全领域，具体涉及一种基于时空超图卷积的加密应用程序行为流量检测方法。

背景技术

随着互联网的普及和信息技术的快速发展，移动手机和PC已经成为人们生活中不可或缺的一部分，然而手机和电脑中的应用程序参差不齐，包含着大量的恶意应用程序行为，诸如攻击、窃取数据等。因此亟待需要一种方法来检测应用程序的行为，来确保网络安全。

检测应用程序行为一般是从获取相关的加密应用程序行为流量开始，然后再使用相应的方法来检测流量，进而分析出是什么应用程序行为。目前流量识别技术主要有基于端口的方法、基于负载的方法、基于主机行为的方法，最近几年比较流行的是基于深度学习的方法。对于基于端口的方法来说，随着动态端口、端口伪装、端口随机等技术的使用，应用协议的日趋复杂和网络应用的多样化使得该方法很快失效，因此很难使用基于端口的技术来进行分类。随着加密技术的发展，大部分网络流量都采用了加密技术，所以当载荷进行加密后，基于负载的方法也变的失效。基于主机行为的方法一般来说识别精度较低，识别粒度较粗，难以满足对应用程序行为流量的检测。对于深度学习的流量识别方法，大部分方法存在着泛化能力较差、精度较低等问题，大部分模型没有考虑到流与流之间存在着丰富的多元关系。

发明内容

本发明为了克服以上技术的不足，提供了一种能够实现加密应用程序流量检测的高精度和鲁棒性，大大提高了加密流量检测模型的泛化能力的方法。

本发明克服其技术问题所采用的技术方案是：

一种基于时空超图卷积的加密应用程序行为流量检测方法，包括如下步骤：

(a)使用Wireshark捕获加密应用程序行为流量数据；

(b)使用CICFlowMeter从pcap流量数据集Q中抽取每条流的原始特征数据

；

(c)对原始特征数据

进行预处理，得到预处理后的特征数据

，将特征数据

输入到GRU网络中，输出得到加密应用程序行为流时间特征数据

，将特征数据

输入到1DCNN网络中，输出得到加密应用程序行为流量空间特征

；

(d)将加密应用程序行为流时间特征数据

和加密应用程序行为流量空间特征

进行融合构建超图，将超图划分成

个子超图后输入到改进的超图卷积模块中，得到融合后的超图特征向量数据

；

(e)将融合后的超图特征向量数据

输入到全连接层中，通过公式

计算得到中间数据

；

(f)将中间数据

输入到SoftMax函数中，输出得到每个类别的概率分布

，完成HG-ETC模型结构的建立，概率分布

为[0-1]的概率部分，取概率分布

中最大值的索引值作为对应的加密应用程序行为类别。

进一步的，步骤(a)包括如下步骤：

(a-1)使用Appium模拟用户进行App应用程序行为操作；

(a-2)使用Wireshark同步抓包，收集App应用程序行为的流量数据，流量数据的格式为pcap格式，将数据进行标注，标注完成后，形成原始pcap流量数据集Q。

优选的，步骤(a-1)中使用Appium模拟用户进行App应用程序行为操作时每个应用程序行为操作持续时间大于等于30分钟，应用程序行为为浏览视频或播放音乐或登陆。

进一步的，步骤(b)中获得原始特征数据

的方法为：

将pcap流量数据集Q中的pcap数据输入到CICFlowMeter中，得到对应的包含关于流的特征信息的csv文件格式的原始特征数据

，

，其中

为原始特征数据

中第

行向量，

，

为原始特征数据

中行数，

为矩阵转置。

进一步的，步骤(c)包括如下步骤：

(c-1)将原始特征数据

中的流ID、源IP、目的IP、时间戳去除；

(c-2)将原始特征数据

中的空值删除，将原始特征数据

中的inf值和NAN值进行补0操作；

(c-3)对原始特征数据

进行MinMaxScaler缩放，得到预处理后的特征数据

，

，其中

为预处理后的特征数据

中第

行向量，

；

(c-4)将预处理后的特征数据

，

，其中

为时间特征数据

中第

行向量，

；

(c-5)将预处理后的特征数据

，

，其中

为提取的加密应用程序行为流量空间特征

中第

行向量，

。

进一步的，步骤(d)包括如下步骤：

(d-1)将加密应用程序行为流时间特征数据

和加密应用程序行为流量空间特征

进行合并操作，得到合并的特征向量数据集

，

，其中

为特征向量数据集

的第

个行的向量，

，

，

为第

个行向量的第

维向量值，

，

为第

个行向量的维数；

(d-2)通过公式

对第

个行向量的第

维向量值

进行哈希，将其映射到一个

维的向量上，计算得到哈希值

，式中

为取符号函数，

为随机投影矩阵，

，

为实数空间；

(d-3)第

个行向量所有

维的哈希值构成第

个行向量的特征向量表示

；

(d-4)通过公式

计算得到第

个行向量的哈希值

，将所有

行向量的哈希值中具有相同哈希值的节点归为一个超边，得到超图结构及关联矩阵

；

(d-5)使用hMETIS算法将超图划分为

个子超图，第

个子超图为

，

；

(d-6)改进的超图卷积模块由第一卷积层和第二卷积层构成，将第

个子超图

输入到第一卷积层中，输出得到特征数据

；

(d-7)将特征数据

输入到第二卷积层中，输出得到特征数据

，

，其中

为第

个子超图的第

行向量，

；

(d-8)将特征数据

输入到池化层中，输出得到池化后的特征数据

；

(d-9)将所有

个子超图的池化后的特征数据使用PyTorch工具中的concat函数进行合并操作，得到融合后的超图特征向量数据

。

优选的，步骤(d-1)中使用PyTorch工具库中的concat()函数对加密应用程序行为流时间特征数据

和加密应用程序行为流量空间特征

进行合并操作，合并时设置参数dim=1。

进一步的，步骤(d-6)中将第

个子超图

输入到第一卷积层中通过公式

计算得到特征数据

，式中

为LeakyReLU激活函数，

为第

个子超图为

的顶点度的对角矩阵，

为第

个子超图为

的超边度的对角矩阵，

为第

个子超图为

的关联矩阵，

，

为第一卷积层的可学习的滤波器矩阵，

为初始化的单位矩阵。

进一步的，步骤(d-7)中将特征数据

输入到第二卷积层中通过公式

计算得到特征数据

，式中

为第一卷积层的可学习的滤波器矩阵。

进一步的，还包括在步骤(f)后采用交叉熵损失函数利用Adam优化器优化步骤(f)的HG-ETC模型结构。

本发明的有益效果是：首先，通过捕获加密应用程序行为流量，然后通过使用CICFlowMeter提取流量的流特征数据，然后对这些特征数据进行清洗。分别将这些特征数据输入到GRU和1DCNN中，其中GRU可以很好地捕获加密流量的时序特征信息，1DCNN可以有效地捕获加密流量的空间特征信息。接下来，将这些捕获到的时序特征信息和空间特征信息进行融合，构建超图结构。超图作为一种特殊的图结构化数据，超图可以一条边上连接多个顶点，所以可以有效地表达流之间的多元信息。在本发明中，一条流表示一个超图的节点，超边则代表流与流之间的多元关系。构建超图后，我们将其输入到改进的超图卷积中，可以很好地学到流之间的多元关系信息，进而提升了模型的精度和泛化能力，改进的超图卷积学到的结构信息也具有更好的鲁棒性。

附图说明

图1为本发明的加密应用程序行为流量检测方法流程图；

图2为本发明的加密应用程序行为流量检测方法结构示意图；

图3为本发明的改进的超图卷积神经网络架构示意图。

具体实施方式

下面结合附图1、附图2、附图3对本发明做进一步说明。

如附图1所示，一种基于时空超图卷积的加密应用程序行为流量检测方法，包括如下步骤：

(a)使用Wireshark捕获加密应用程序行为流量数据。

。CICFlowMeter是一款流量特征提取工具，该工具输入pcap文件，输出pcap文件中每条流的原始特征信息，以csv表格的形式输出。CICFlowMeter提取的主要是传输层的一些统计信息。

(c)对原始特征数据

进行预处理，得到预处理后的特征数据

，将特征数据

，将特征数据

。

(d)将加密应用程序行为流时间特征数据

和加密应用程序行为流量空间特征

进行融合构建超图。超图，是一种比较特殊的图形结构，与普通图不同之处在于它允许一条边连接多个节点。传统的图由一组节点和连接这些节点的边组成，每条边只能连接两个节点。而超图的边可以连接多个节点，这些节点组成的集合称为超边。超图的定义形式为

，其中

是节点的集合，

是超边的集合，

表示每个超边的权重值。其中超图

可以使用

大小的关联矩阵

进行表示，其中

，其条目可以定义为

，如果某个节点属于某个超边，则关联矩阵

对应位置的值为1，否则的话为0。对于节点

，那么节点的度可以表示为

，

一般初始化为1，对于边

，那么边的度可以表示成

，边的度构成的对角矩阵记为

，节点的度构成的对角矩阵记为

，超图结构为现有技术，这里不再赘述。如附图3所示，将超图划分成

。

(e)将融合后的超图特征向量数据

输入到全连接层中，通过公式

计算得到中间数据

。

(f)将中间数据

输入到SoftMax函数中，输出得到每个类别的概率分布

，完成HG-ETC模型结构的建立，概率分布

为[0-1]的概率部分，取概率分布

中最大值的索引值作为对应的加密应用程序行为类别。

该方法能够同时捕捉加密流量的时间特征、空间特征、流与流之间的多元关系特征。能够实现加密应用程序流量检测的高精度和鲁棒性，大大提高了加密流量检测模型的泛化能力。

如附图2所示，该基于时空超图卷积的加密应用程序行为流量检测方法为：

步骤201为获取到pcap流量数据，步骤202为将pcap数据使用CICFlowMeter进行处理，抽取原始流量特征数据，步骤203为对提取的原始特征数据进行预处理，包括对数据进行去除空值，去掉一些对加密流量分类影响较小的特征数据，对数据进行MinMaxScaler处理，进行过采样处理。步骤204和步骤205为将上步203得到的数据分别输入到GRU和1DCNN中学到加密应用程序行为流量的时序特征和空间特征。步骤206是将上步205得到的时序特征和空间特征进行聚合后得到特征数据节点。步骤207为构建超图的操作，通过哈希函数将节点特征映射到k维向量，然后对每个特征向量的值按位与运算，得到每个节点的哈希值，然后哈希值相等的节点使用同一个超边连接。步骤208为将得到的超图使用hMETIS算法划分成多个子超图。步骤209为将子超图数据输入到构建的多尺度融合卷积中学习特征。步骤210为将学到的隐层表示通入全连接层，然后通入SoftMax分类器，使用交叉熵损失函数计算损失，并保存模型参数。步骤211为使用训练好的模型进行应用程序行为分类。

根据表一的实验结果，使用本发明提供的多尺度融合超图卷积准确度达到了94.11%，精确度达到了93.98%，F1分数达到了94.08%召回率达到了93.25%。相比于其他传统的实验方法，精度有较大的提升，具有良好的应用程序行为识别效果。

表一，大规模应用程序行为流量数据集在不同模型中的实验结果

。

根据表二的实验结果，使用本发明提供的多尺度融合超图卷积在Wang的数据集上进行了验证，得到上表结果，准确度达到了93.52%，精确度达到了94.88%，F1分数达到了95.03%，召回率达到了95.15%，实验表示本方法具有良好的泛化能力。

表二，大规模应用程序行为流量数据集在Wang的数据集上的验证结果

。

在本发明的一个实施例中，步骤(a)包括如下步骤：

(a-1)使用Appium模拟用户进行App应用程序行为操作。Appium是一个开源的移动端自动化测试工具，支持跨平台，可以在OSX，Windows以及Linux桌面系统上运行。进一步优选的，步骤(a-1)中使用Appium模拟用户进行App应用程序行为操作时每个应用程序行为操作持续时间大于等于30分钟，应用程序行为为浏览视频或播放音乐或登陆。

在本发明的一个实施例中，步骤(b)中获得原始特征数据

的方法为：

，

，其中

为原始特征数据

中第

行向量，

，

为原始特征数据

中行数，

为矩阵转置。csv文件中包含大量的关于流的特征信息，一共有84维特征数据。

步骤(c)包括如下步骤：

(c-1)将原始特征数据

中的流ID、源IP、目的IP、时间戳去除，因为这些特征已经被证明对加密流量分类影响较小。

(c-2)将原始特征数据

中的空值删除，将原始特征数据

中的inf值和NAN值进行补0操作。

(c-3)为了使不同量纲的特征处于同一数值量级，减少方差大的特征的影响，使模型更准确并加快学习算法的收敛速度，我们对原始特征数据

进行MinMaxScaler缩放，得到预处理后的特征数据

，

，其中

为预处理后的特征数据

中第

行向量，

。

MinMaxScaler缩放公式为：

，

，式中

是当前特征列的最小值，

是当前特征列的最大值，

默认值为1，

默认值为0。接下来如果数据集样本不平衡，则采用过采样方法缓解样本的不平衡问题，过采样的原理是从少数类的样本中进行随机采样来增加新样本。使用的过采样代码如下所示：

fromimblearn.over_sampling import RandomOverSampler

ROS = RandomOverSampler(random_state=0)

X_resampled, y_resampled = ROS.fit_sample(P, y)

(c-4)将预处理后的特征数据

，

，其中

为时间特征数据

中第

行向量，

。GRU相对于长短期记忆网络(LSTM)来说，GRU只有两个门，一个更新门，一个重置门，更新门用于控制前一时刻的状态信息被带入到当前状态中的程度，更新门的值越大说明前一时刻的状态信息带入越多；重置门用于控制忽略前一时刻的状态信息的程度，重置门的值越小说明忽略得越多。GRU和LSTM作用相同，在捕捉长序列语义关联时，能有效抑制梯度消失或爆炸，效果都优于传统RNN，但计算复杂度相比LSTM要小。GRU模型简单，参数量更少，训练速度更快，因此更适用于构建较大的网络。它只有两个门控，从计算角度看，效率更高，它的可扩展性有利于构筑较大的模型；但LSTM因为它具有三个门控，更加的强大和灵活，表达能力更强，同时训练速度会比GRU慢一些。

(c-5)将预处理后的特征数据

，

，其中

为提取的加密应用程序行为流量空间特征

中第

行向量，

。具体的预处理后的特征数据

通入1DCNN网络的一维卷积层，经过ReLU激活函数后，通入最大池化层，然后再通入一维卷积层，经过1DCNN网络的ReLU激活函数后通入平均池化层，最后得到提取的加密应用程序行为流量空间特征

。

在本发明的一个实施例中，将得到的流时间特征和流空间特征进行融合构建超图，划分子超图后输入到改进的超图卷积中训练，在考虑高阶数据结构的情况下学习隐含层表示。具体的，步骤(d)包括如下步骤：

(d-1)将加密应用程序行为流时间特征数据

和加密应用程序行为流量空间特征

进行合并操作，得到合并的特征向量数据集

，

，其中

为特征向量数据集

的第

个行的向量，

，

，

为第

个行向量的第

维向量值，

，

为第

个行向量的维数。优选的，步骤(d-1)中使用PyTorch工具库中的concat()函数对加密应用程序行为流时间特征数据

和加密应用程序行为流量空间特征

进行合并操作，合并时设置参数dim=1。

(d-2)为了优化计算复杂度，使用本发明提供的哈希法构建超边。具体的，通过公式

对第

个行向量的第

维向量值

进行哈希，将其映射到一个

维的向量上，计算得到哈希值

，式中

为取符号函数，

为随机投影矩阵，

，

为实数空间。

(d-3)第

个行向量所有

维的哈希值构成第

个行向量的特征向量表示

；

(d-4)通过公式

计算得到第

个行向量的哈希值

，将所有

。

(d-5)如附图3所示，使用hMETIS算法（一种划分超图的算法）将超图划分为

个子超图，第

个子超图为

，

。

个子超图

输入到第一卷积层中，输出得到特征数据

。

(d-7)将特征数据

输入到第二卷积层中，输出得到特征数据

，

，其中

为第

个子超图的第

行向量，

。

(d-8)将特征数据

输入到池化层中，输出得到池化后的特征数据

。

(d-9)将所有

。

在本发明的一个实施例中，步骤(d-6)中将第

个子超图

输入到第一卷积层中通过公式

计算得到特征数据

，式中

为LeakyReLU激活函数，

为第

个子超图为

的顶点度的对角矩阵，

为第

个子超图为

的超边度的对角矩阵，

为第

个子超图为

的关联矩阵，

，

为第一卷积层的可学习的滤波器矩阵，

为初始化的单位矩阵。步骤(d-7)中将特征数据

输入到第二卷积层中通过公式

计算得到特征数据

，式中

为第一卷积层的可学习的滤波器矩阵。

还包括在步骤(f)后采用交叉熵损失函数利用Adam优化器优化步骤(f)的HG-ETC模型结构。训练结束后，保存模型为.pt文件格式，然后就可以对加密应用程序行为流量进行预测，预测相应的应用程序行为。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。