CN116055224B - 基于时空超图卷积的加密应用程序行为流量检测方法 - Google Patents

基于时空超图卷积的加密应用程序行为流量检测方法 Download PDF

Info

Publication number
CN116055224B
CN116055224B CN202310314700.7A CN202310314700A CN116055224B CN 116055224 B CN116055224 B CN 116055224B CN 202310314700 A CN202310314700 A CN 202310314700A CN 116055224 B CN116055224 B CN 116055224B
Authority
CN
China
Prior art keywords
data
hypergraph
feature
behavior
application program
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310314700.7A
Other languages
English (en)
Other versions
CN116055224A (zh
Inventor
韩晓晖
刘伟华
左文波
罗雪姣
刘洋
崔斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qilu University of Technology
Shandong Computer Science Center National Super Computing Center in Jinan
Original Assignee
Qilu University of Technology
Shandong Computer Science Center National Super Computing Center in Jinan
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qilu University of Technology, Shandong Computer Science Center National Super Computing Center in Jinan filed Critical Qilu University of Technology
Priority to CN202310314700.7A priority Critical patent/CN116055224B/zh
Publication of CN116055224A publication Critical patent/CN116055224A/zh
Application granted granted Critical
Publication of CN116055224B publication Critical patent/CN116055224B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • H04L47/2483Traffic characterised by specific attributes, e.g. priority or QoS involving identification of individual flows
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

一种基于时空超图卷积的加密应用程序行为流量检测方法,涉及网络安全领域,首先,通过捕获加密应用程序行为流量,然后通过使用CICFlowMeter提取流量的流特征数据,然后对这些特征数据进行清洗。分别将这些特征数据输入到GRU和1DCNN中,其中GRU可以很好地捕获加密流量的时序特征信息,1DCNN可以有效地捕获加密流量的空间特征信息。接下来,将这些捕获到的时序特征信息和空间特征信息进行融合,构建超图结构。构建超图后,我们将其输入到改进的超图卷积中,可以很好地学到流之间的多元关系信息,进而提升了模型的精度和泛化能力,改进的超图卷积学到的结构信息也具有更好的鲁棒性。

Description

基于时空超图卷积的加密应用程序行为流量检测方法
技术领域
本发明涉及网络安全领域,具体涉及一种基于时空超图卷积的加密应用程序行为流量检测方法。
背景技术
随着互联网的普及和信息技术的快速发展,移动手机和PC已经成为人们生活中不可或缺的一部分,然而手机和电脑中的应用程序参差不齐,包含着大量的恶意应用程序行为,诸如攻击、窃取数据等。因此亟待需要一种方法来检测应用程序的行为,来确保网络安全。
检测应用程序行为一般是从获取相关的加密应用程序行为流量开始,然后再使用相应的方法来检测流量,进而分析出是什么应用程序行为。目前流量识别技术主要有基于端口的方法、基于负载的方法、基于主机行为的方法,最近几年比较流行的是基于深度学习的方法。对于基于端口的方法来说,随着动态端口、端口伪装、端口随机等技术的使用,应用协议的日趋复杂和网络应用的多样化使得该方法很快失效,因此很难使用基于端口的技术来进行分类。随着加密技术的发展,大部分网络流量都采用了加密技术,所以当载荷进行加密后,基于负载的方法也变的失效。基于主机行为的方法一般来说识别精度较低,识别粒度较粗,难以满足对应用程序行为流量的检测。对于深度学习的流量识别方法,大部分方法存在着泛化能力较差、精度较低等问题,大部分模型没有考虑到流与流之间存在着丰富的多元关系。
发明内容
本发明为了克服以上技术的不足,提供了一种能够实现加密应用程序流量检测的高精度和鲁棒性,大大提高了加密流量检测模型的泛化能力的方法。
本发明克服其技术问题所采用的技术方案是:
一种基于时空超图卷积的加密应用程序行为流量检测方法,包括如下步骤:
(a)使用Wireshark捕获加密应用程序行为流量数据;
(b)使用CICFlowMeter从pcap流量数据集Q中抽取每条流的原始特征数据
Figure SMS_1
(c)对原始特征数据
Figure SMS_2
进行预处理,得到预处理后的特征数据/>
Figure SMS_3
,将特征数据/>
Figure SMS_4
输入到GRU网络中,输出得到加密应用程序行为流时间特征数据/>
Figure SMS_5
,将特征数据/>
Figure SMS_6
输入到1DCNN网络中,输出得到加密应用程序行为流量空间特征/>
Figure SMS_7
(d)将加密应用程序行为流时间特征数据
Figure SMS_8
和加密应用程序行为流量空间特征
Figure SMS_9
进行融合构建超图,将超图划分成/>
Figure SMS_10
个子超图后输入到改进的超图卷积模块中,得到融合后的超图特征向量数据/>
Figure SMS_11
(e)将融合后的超图特征向量数据
Figure SMS_12
输入到全连接层中,通过公式/>
Figure SMS_13
计算得到中间数据/>
Figure SMS_14
(f)将中间数据
Figure SMS_15
输入到SoftMax函数中,输出得到每个类别的概率分布/>
Figure SMS_16
,完成HG-ETC模型结构的建立,概率分布/>
Figure SMS_17
为[0-1]的概率部分,取概率分布/>
Figure SMS_18
中最大值的索引值作为对应的加密应用程序行为类别。
进一步的,步骤(a)包括如下步骤:
(a-1)使用Appium模拟用户进行App应用程序行为操作;
(a-2)使用Wireshark同步抓包,收集App应用程序行为的流量数据,流量数据的格式为pcap格式,将数据进行标注,标注完成后,形成原始pcap流量数据集Q。
优选的,步骤(a-1)中使用Appium模拟用户进行App应用程序行为操作时每个应用程序行为操作持续时间大于等于30分钟,应用程序行为为浏览视频或播放音乐或登陆。
进一步的,步骤(b)中获得原始特征数据
Figure SMS_19
的方法为:
将pcap流量数据集Q中的pcap数据输入到CICFlowMeter中,得到对应的包含关于流的特征信息的csv文件格式的原始特征数据
Figure SMS_21
,/>
Figure SMS_24
,其中/>
Figure SMS_27
为原始特征数据/>
Figure SMS_22
中第/>
Figure SMS_25
行向量,/>
Figure SMS_26
,/>
Figure SMS_28
为原始特征数据/>
Figure SMS_20
中行数,/>
Figure SMS_23
为矩阵转置。
进一步的,步骤(c)包括如下步骤:
(c-1)将原始特征数据
Figure SMS_29
中的流ID、源IP、目的IP、时间戳去除;
(c-2)将原始特征数据
Figure SMS_30
中的空值删除,将原始特征数据/>
Figure SMS_31
中的inf值和NAN值进行补0操作;
(c-3)对原始特征数据
Figure SMS_32
进行MinMaxScaler缩放,得到预处理后的特征数据/>
Figure SMS_33
Figure SMS_34
,其中/>
Figure SMS_35
为预处理后的特征数据/>
Figure SMS_36
中第/>
Figure SMS_37
行向量,/>
Figure SMS_38
(c-4)将预处理后的特征数据
Figure SMS_39
输入到GRU网络中,输出得到加密应用程序行为流时间特征数据/>
Figure SMS_40
,/>
Figure SMS_41
,其中/>
Figure SMS_42
为时间特征数据/>
Figure SMS_43
中第/>
Figure SMS_44
行向量,/>
Figure SMS_45
(c-5)将预处理后的特征数据
Figure SMS_46
输入到1DCNN网络中,输出得到加密应用程序行为流量空间特征/>
Figure SMS_47
,/>
Figure SMS_48
,其中/>
Figure SMS_49
为提取的加密应用程序行为流量空间特征/>
Figure SMS_50
中第/>
Figure SMS_51
行向量,/>
Figure SMS_52
进一步的,步骤(d)包括如下步骤:
(d-1)将加密应用程序行为流时间特征数据
Figure SMS_54
和加密应用程序行为流量空间特征
Figure SMS_57
进行合并操作,得到合并的特征向量数据集/>
Figure SMS_61
,/>
Figure SMS_56
,其中/>
Figure SMS_60
为特征向量数据集/>
Figure SMS_64
的第/>
Figure SMS_66
个行的向量,/>
Figure SMS_53
,/>
Figure SMS_59
,/>
Figure SMS_63
为第/>
Figure SMS_67
个行向量的第/>
Figure SMS_55
维向量值,/>
Figure SMS_58
,/>
Figure SMS_62
为第/>
Figure SMS_65
个行向量的维数;
(d-2)通过公式
Figure SMS_70
对第/>
Figure SMS_72
个行向量的第/>
Figure SMS_74
维向量值/>
Figure SMS_69
进行哈希,将其映射到一个/>
Figure SMS_73
维的向量上,计算得到哈希值/>
Figure SMS_75
,式中/>
Figure SMS_77
为取符号函数,/>
Figure SMS_68
为随机投影矩阵,
Figure SMS_71
,/>
Figure SMS_76
为实数空间;
(d-3)第
Figure SMS_78
个行向量所有/>
Figure SMS_79
维的哈希值构成第/>
Figure SMS_80
个行向量的特征向量表示
Figure SMS_81
(d-4)通过公式
Figure SMS_82
计算得到第/>
Figure SMS_83
个行向量的哈希值
Figure SMS_84
,将所有/>
Figure SMS_85
行向量的哈希值中具有相同哈希值的节点归为一个超边,得到超图结构及关联矩阵/>
Figure SMS_86
(d-5)使用hMETIS算法将超图划分为
Figure SMS_87
个子超图,第/>
Figure SMS_88
个子超图为/>
Figure SMS_89
,/>
Figure SMS_90
(d-6)改进的超图卷积模块由第一卷积层和第二卷积层构成,将第
Figure SMS_91
个子超图/>
Figure SMS_92
输入到第一卷积层中,输出得到特征数据/>
Figure SMS_93
(d-7)将特征数据
Figure SMS_94
输入到第二卷积层中,输出得到特征数据/>
Figure SMS_95
Figure SMS_96
,其中/>
Figure SMS_97
为第/>
Figure SMS_98
个子超图的第/>
Figure SMS_99
行向量,/>
Figure SMS_100
(d-8)将特征数据
Figure SMS_101
输入到池化层中,输出得到池化后的特征数据/>
Figure SMS_102
(d-9)将所有
Figure SMS_103
个子超图的池化后的特征数据使用PyTorch工具中的concat函数进行合并操作,得到融合后的超图特征向量数据/>
Figure SMS_104
优选的,步骤(d-1)中使用PyTorch工具库中的concat()函数对加密应用程序行为流时间特征数据
Figure SMS_105
和加密应用程序行为流量空间特征/>
Figure SMS_106
进行合并操作,合并时设置参数dim=1。
进一步的,步骤(d-6)中将第
Figure SMS_118
个子超图/>
Figure SMS_108
输入到第一卷积层中通过公式
Figure SMS_113
计算得到特征数据/>
Figure SMS_117
,式中/>
Figure SMS_120
为LeakyReLU激活函数,/>
Figure SMS_122
为第/>
Figure SMS_123
个子超图为/>
Figure SMS_115
的顶点度的对角矩阵,/>
Figure SMS_119
为第/>
Figure SMS_107
个子超图为/>
Figure SMS_112
的超边度的对角矩阵,/>
Figure SMS_110
为第/>
Figure SMS_111
个子超图为/>
Figure SMS_116
的关联矩阵,/>
Figure SMS_121
,/>
Figure SMS_109
为第一卷积层的可学习的滤波器矩阵,/>
Figure SMS_114
为初始化的单位矩阵。
进一步的,步骤(d-7)中将特征数据
Figure SMS_124
输入到第二卷积层中通过公式
Figure SMS_125
计算得到特征数据/>
Figure SMS_126
,式中/>
Figure SMS_127
为第一卷积层的可学习的滤波器矩阵。
进一步的,还包括在步骤(f)后采用交叉熵损失函数利用Adam优化器优化步骤(f)的HG-ETC模型结构。
本发明的有益效果是:首先,通过捕获加密应用程序行为流量,然后通过使用CICFlowMeter提取流量的流特征数据,然后对这些特征数据进行清洗。分别将这些特征数据输入到GRU和1DCNN中,其中GRU可以很好地捕获加密流量的时序特征信息,1DCNN可以有效地捕获加密流量的空间特征信息。接下来,将这些捕获到的时序特征信息和空间特征信息进行融合,构建超图结构。超图作为一种特殊的图结构化数据,超图可以一条边上连接多个顶点,所以可以有效地表达流之间的多元信息。在本发明中,一条流表示一个超图的节点,超边则代表流与流之间的多元关系。构建超图后,我们将其输入到改进的超图卷积中,可以很好地学到流之间的多元关系信息,进而提升了模型的精度和泛化能力,改进的超图卷积学到的结构信息也具有更好的鲁棒性。
附图说明
图1为本发明的加密应用程序行为流量检测方法流程图;
图2为本发明的加密应用程序行为流量检测方法结构示意图;
图3为本发明的改进的超图卷积神经网络架构示意图。
具体实施方式
下面结合附图1、附图2、附图3对本发明做进一步说明。
如附图1所示,一种基于时空超图卷积的加密应用程序行为流量检测方法,包括如下步骤:
(a)使用Wireshark捕获加密应用程序行为流量数据。
(b)使用CICFlowMeter从pcap流量数据集Q中抽取每条流的原始特征数据
Figure SMS_128
。CICFlowMeter是一款流量特征提取工具,该工具输入pcap文件,输出pcap文件中每条流的原始特征信息,以csv表格的形式输出。CICFlowMeter提取的主要是传输层的一些统计信息。
(c)对原始特征数据
Figure SMS_129
进行预处理,得到预处理后的特征数据/>
Figure SMS_130
,将特征数据/>
Figure SMS_131
输入到GRU网络中,输出得到加密应用程序行为流时间特征数据/>
Figure SMS_132
,将特征数据/>
Figure SMS_133
输入到1DCNN网络中,输出得到加密应用程序行为流量空间特征/>
Figure SMS_134
(d)将加密应用程序行为流时间特征数据
Figure SMS_148
和加密应用程序行为流量空间特征
Figure SMS_138
进行融合构建超图。超图,是一种比较特殊的图形结构,与普通图不同之处在于它允许一条边连接多个节点。传统的图由一组节点和连接这些节点的边组成,每条边只能连接两个节点。而超图的边可以连接多个节点,这些节点组成的集合称为超边。超图的定义形式为
Figure SMS_143
,其中/>
Figure SMS_136
是节点的集合,/>
Figure SMS_141
是超边的集合,/>
Figure SMS_145
表示每个超边的权重值。其中超图/>
Figure SMS_149
可以使用/>
Figure SMS_142
大小的关联矩阵/>
Figure SMS_146
进行表示,其中/>
Figure SMS_135
,其条目可以定义为
Figure SMS_139
,如果某个节点属于某个超边,则关联矩阵/>
Figure SMS_150
对应位置的值为1,否则的话为0。对于节点/>
Figure SMS_153
,那么节点的度可以表示为/>
Figure SMS_152
,/>
Figure SMS_155
一般初始化为1,对于边/>
Figure SMS_144
,那么边的度可以表示成/>
Figure SMS_147
,边的度构成的对角矩阵记为/>
Figure SMS_151
,节点的度构成的对角矩阵记为/>
Figure SMS_154
,超图结构为现有技术,这里不再赘述。如附图3所示,将超图划分成/>
Figure SMS_137
个子超图后输入到改进的超图卷积模块中,得到融合后的超图特征向量数据/>
Figure SMS_140
(e)将融合后的超图特征向量数据
Figure SMS_156
输入到全连接层中,通过公式/>
Figure SMS_157
计算得到中间数据/>
Figure SMS_158
(f)将中间数据
Figure SMS_159
输入到SoftMax函数中,输出得到每个类别的概率分布/>
Figure SMS_160
,完成HG-ETC模型结构的建立,概率分布/>
Figure SMS_161
为[0-1]的概率部分,取概率分布/>
Figure SMS_162
中最大值的索引值作为对应的加密应用程序行为类别。
该方法能够同时捕捉加密流量的时间特征、空间特征、流与流之间的多元关系特征。能够实现加密应用程序流量检测的高精度和鲁棒性,大大提高了加密流量检测模型的泛化能力。
如附图2所示,该基于时空超图卷积的加密应用程序行为流量检测方法为:
步骤201为获取到pcap流量数据,步骤202为将pcap数据使用CICFlowMeter进行处理,抽取原始流量特征数据,步骤203为对提取的原始特征数据进行预处理,包括对数据进行去除空值,去掉一些对加密流量分类影响较小的特征数据,对数据进行MinMaxScaler处理,进行过采样处理。步骤204和步骤205为将上步203得到的数据分别输入到GRU和1DCNN中学到加密应用程序行为流量的时序特征和空间特征。步骤206是将上步205得到的时序特征和空间特征进行聚合后得到特征数据节点。步骤207为构建超图的操作,通过哈希函数将节点特征映射到k维向量,然后对每个特征向量的值按位与运算,得到每个节点的哈希值,然后哈希值相等的节点使用同一个超边连接。步骤208为将得到的超图使用hMETIS算法划分成多个子超图。步骤209为将子超图数据输入到构建的多尺度融合卷积中学习特征。步骤210为将学到的隐层表示通入全连接层,然后通入SoftMax分类器,使用交叉熵损失函数计算损失,并保存模型参数。步骤211为使用训练好的模型进行应用程序行为分类。
根据表一的实验结果,使用本发明提供的多尺度融合超图卷积准确度达到了94.11%,精确度达到了93.98%,F1分数达到了94.08%召回率达到了93.25%。相比于其他传统的实验方法,精度有较大的提升,具有良好的应用程序行为识别效果。
表一,大规模应用程序行为流量数据集在不同模型中的实验结果
Figure SMS_163
根据表二的实验结果,使用本发明提供的多尺度融合超图卷积在Wang的数据集上进行了验证,得到上表结果,准确度达到了93.52%,精确度达到了94.88%,F1分数达到了95.03%,召回率达到了95.15%,实验表示本方法具有良好的泛化能力。
表二,大规模应用程序行为流量数据集在Wang的数据集上的验证结果
Figure SMS_164
在本发明的一个实施例中,步骤(a)包括如下步骤:
(a-1)使用Appium模拟用户进行App应用程序行为操作。Appium是一个开源的移动端自动化测试工具,支持跨平台,可以在OSX,Windows以及Linux桌面系统上运行。进一步优选的,步骤(a-1)中使用Appium模拟用户进行App应用程序行为操作时每个应用程序行为操作持续时间大于等于30分钟,应用程序行为为浏览视频或播放音乐或登陆。
(a-2)使用Wireshark同步抓包,收集App应用程序行为的流量数据,流量数据的格式为pcap格式,将数据进行标注,标注完成后,形成原始pcap流量数据集Q。
在本发明的一个实施例中,步骤(b)中获得原始特征数据
Figure SMS_165
的方法为:
将pcap流量数据集Q中的pcap数据输入到CICFlowMeter中,得到对应的包含关于流的特征信息的csv文件格式的原始特征数据
Figure SMS_168
,/>
Figure SMS_170
,其中/>
Figure SMS_172
为原始特征数据/>
Figure SMS_167
中第/>
Figure SMS_171
行向量,/>
Figure SMS_173
,/>
Figure SMS_174
为原始特征数据/>
Figure SMS_166
中行数,/>
Figure SMS_169
为矩阵转置。csv文件中包含大量的关于流的特征信息,一共有84维特征数据。
步骤(c)包括如下步骤:
(c-1)将原始特征数据
Figure SMS_175
中的流ID、源IP、目的IP、时间戳去除,因为这些特征已经被证明对加密流量分类影响较小。
(c-2)将原始特征数据
Figure SMS_176
中的空值删除,将原始特征数据/>
Figure SMS_177
中的inf值和NAN值进行补0操作。
(c-3)为了使不同量纲的特征处于同一数值量级,减少方差大的特征的影响,使模型更准确并加快学习算法的收敛速度,我们对原始特征数据
Figure SMS_178
进行MinMaxScaler缩放,得到预处理后的特征数据/>
Figure SMS_179
,/>
Figure SMS_180
,其中/>
Figure SMS_181
为预处理后的特征数据/>
Figure SMS_182
中第
Figure SMS_183
行向量,/>
Figure SMS_184
MinMaxScaler缩放公式为:
Figure SMS_185
,/>
Figure SMS_186
,式中/>
Figure SMS_187
是当前特征列的最小值,/>
Figure SMS_188
是当前特征列的最大值,/>
Figure SMS_189
默认值为1,/>
Figure SMS_190
默认值为0。接下来如果数据集样本不平衡,则采用过采样方法缓解样本的不平衡问题,过采样的原理是从少数类的样本中进行随机采样来增加新样本。使用的过采样代码如下所示:
fromimblearn.over_sampling import RandomOverSampler
ROS = RandomOverSampler(random_state=0)
X_resampled, y_resampled = ROS.fit_sample(P, y)
(c-4)将预处理后的特征数据
Figure SMS_191
输入到GRU网络中,输出得到加密应用程序行为流时间特征数据/>
Figure SMS_192
,/>
Figure SMS_193
,其中/>
Figure SMS_194
为时间特征数据/>
Figure SMS_195
中第/>
Figure SMS_196
行向量,
Figure SMS_197
。GRU相对于长短期记忆网络(LSTM)来说,GRU只有两个门,一个更新门,一个重置门,更新门用于控制前一时刻的状态信息被带入到当前状态中的程度,更新门的值越大说明前一时刻的状态信息带入越多;重置门用于控制忽略前一时刻的状态信息的程度,重置门的值越小说明忽略得越多。GRU和LSTM作用相同,在捕捉长序列语义关联时,能有效抑制梯度消失或爆炸,效果都优于传统RNN,但计算复杂度相比LSTM要小。GRU模型简单,参数量更少,训练速度更快,因此更适用于构建较大的网络。它只有两个门控,从计算角度看,效率更高,它的可扩展性有利于构筑较大的模型;但LSTM因为它具有三个门控,更加的强大和灵活,表达能力更强,同时训练速度会比GRU慢一些。
(c-5)将预处理后的特征数据
Figure SMS_199
输入到1DCNN网络中,输出得到加密应用程序行为流量空间特征/>
Figure SMS_202
,/>
Figure SMS_204
,其中/>
Figure SMS_200
为提取的加密应用程序行为流量空间特征/>
Figure SMS_203
中第/>
Figure SMS_205
行向量,/>
Figure SMS_206
。具体的预处理后的特征数据/>
Figure SMS_198
通入1DCNN网络的一维卷积层,经过ReLU激活函数后,通入最大池化层,然后再通入一维卷积层,经过1DCNN网络的ReLU激活函数后通入平均池化层,最后得到提取的加密应用程序行为流量空间特征/>
Figure SMS_201
在本发明的一个实施例中,将得到的流时间特征和流空间特征进行融合构建超图,划分子超图后输入到改进的超图卷积中训练,在考虑高阶数据结构的情况下学习隐含层表示。具体的,步骤(d)包括如下步骤:
(d-1)将加密应用程序行为流时间特征数据
Figure SMS_216
和加密应用程序行为流量空间特征
Figure SMS_208
进行合并操作,得到合并的特征向量数据集/>
Figure SMS_211
,/>
Figure SMS_210
,其中/>
Figure SMS_214
为特征向量数据集/>
Figure SMS_218
的第/>
Figure SMS_222
个行的向量,/>
Figure SMS_215
,/>
Figure SMS_219
,/>
Figure SMS_207
为第/>
Figure SMS_212
个行向量的第/>
Figure SMS_217
维向量值,/>
Figure SMS_220
,/>
Figure SMS_221
为第/>
Figure SMS_223
个行向量的维数。优选的,步骤(d-1)中使用PyTorch工具库中的concat()函数对加密应用程序行为流时间特征数据/>
Figure SMS_209
和加密应用程序行为流量空间特征/>
Figure SMS_213
进行合并操作,合并时设置参数dim=1。
(d-2)为了优化计算复杂度,使用本发明提供的哈希法构建超边。具体的,通过公式
Figure SMS_225
对第/>
Figure SMS_227
个行向量的第/>
Figure SMS_230
维向量值/>
Figure SMS_226
进行哈希,将其映射到一个/>
Figure SMS_228
维的向量上,计算得到哈希值/>
Figure SMS_231
,式中/>
Figure SMS_233
为取符号函数,/>
Figure SMS_224
为随机投影矩阵,/>
Figure SMS_229
,/>
Figure SMS_232
为实数空间。
(d-3)第
Figure SMS_234
个行向量所有/>
Figure SMS_235
维的哈希值构成第/>
Figure SMS_236
个行向量的特征向量表示
Figure SMS_237
(d-4)通过公式
Figure SMS_238
计算得到第/>
Figure SMS_239
个行向量的哈希值
Figure SMS_240
,将所有/>
Figure SMS_241
行向量的哈希值中具有相同哈希值的节点归为一个超边,得到超图结构及关联矩阵/>
Figure SMS_242
(d-5)如附图3所示,使用hMETIS算法(一种划分超图的算法)将超图划分为
Figure SMS_243
个子超图,第/>
Figure SMS_244
个子超图为/>
Figure SMS_245
,/>
Figure SMS_246
(d-6)改进的超图卷积模块由第一卷积层和第二卷积层构成,将第
Figure SMS_247
个子超图/>
Figure SMS_248
输入到第一卷积层中,输出得到特征数据/>
Figure SMS_249
(d-7)将特征数据
Figure SMS_250
输入到第二卷积层中,输出得到特征数据/>
Figure SMS_251
Figure SMS_252
,其中/>
Figure SMS_253
为第/>
Figure SMS_254
个子超图的第/>
Figure SMS_255
行向量,/>
Figure SMS_256
(d-8)将特征数据
Figure SMS_257
输入到池化层中,输出得到池化后的特征数据/>
Figure SMS_258
(d-9)将所有
Figure SMS_259
个子超图的池化后的特征数据使用PyTorch工具中的concat函数进行合并操作,得到融合后的超图特征向量数据/>
Figure SMS_260
在本发明的一个实施例中,步骤(d-6)中将第
Figure SMS_270
个子超图/>
Figure SMS_262
输入到第一卷积层中通过公式/>
Figure SMS_266
计算得到特征数据/>
Figure SMS_275
,式中/>
Figure SMS_278
为LeakyReLU激活函数,/>
Figure SMS_279
为第/>
Figure SMS_281
个子超图为/>
Figure SMS_271
的顶点度的对角矩阵,/>
Figure SMS_274
为第/>
Figure SMS_261
个子超图为
Figure SMS_267
的超边度的对角矩阵,/>
Figure SMS_263
为第/>
Figure SMS_265
个子超图为/>
Figure SMS_269
的关联矩阵,/>
Figure SMS_273
,/>
Figure SMS_272
为第一卷积层的可学习的滤波器矩阵,/>
Figure SMS_276
为初始化的单位矩阵。步骤(d-7)中将特征数据/>
Figure SMS_277
输入到第二卷积层中通过公式/>
Figure SMS_280
计算得到特征数据
Figure SMS_264
,式中/>
Figure SMS_268
为第一卷积层的可学习的滤波器矩阵。
还包括在步骤(f)后采用交叉熵损失函数利用Adam优化器优化步骤(f)的HG-ETC模型结构。训练结束后,保存模型为.pt文件格式,然后就可以对加密应用程序行为流量进行预测,预测相应的应用程序行为。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于时空超图卷积的加密应用程序行为流量检测方法,其特征在于,包括如下步骤:
(a)使用Wireshark捕获加密应用程序行为流量数据;
(b)使用CICFlowMeter从pcap流量数据集Q中抽取每条流的原始特征数据P;
(c)对原始特征数据P进行预处理,得到预处理后的特征数据X,将特征数据X输入到GRU网络中,输出得到加密应用程序行为流时间特征数据X′,将特征数据X输入到1DCNN网络中,输出得到加密应用程序行为流量空间特征X′_;
(d)将加密应用程序行为流时间特征数据X′和加密应用程序行为流量空间特征X′_进行融合构建超图,将超图划分成q个子超图后输入到改进的超图卷积模块中,得到融合后的超图特征向量数据M′;
(e)将融合后的超图特征向量数据M′输入到全连接层中,通过公式
xk=W*M′+b计算得到中间数据xk
(f)将中间数据zk输入到SoftMax函数中,输出得到每个类别的概率分布zk,完成HG-ETC模型结构的建立,概率分布zk为[0-1]的概率部分,取概率分布zk中最大值的索引值作为对应的加密应用程序行为类别;
步骤(a)包括如下步骤:
(a-1)使用Appium模拟用户进行App应用程序行为操作;
(a-2)使用Wireshark同步抓包,收集App应用程序行为的流量数据,流量数据的格式为pcap格式,将数据进行标注,标注完成后,形成原始pcap流量数据集Q;
步骤(d)包括如下步骤:
(d-1)将加密应用程序行为流时间特征数据X′和加密应用程序行为流量空间特征X′_进行合并操作,得到合并的特征向量数据集M,
M=[m1,m2,...,mi,...,mn]T,其中mi为特征向量数据集M的第i个行的向量,i∈{1,...,n},
mi=[mi1,mi2,...,mij,...,mik]T,mij为第i个行向量的第j维向量值,j∈{1,...,k},k为第i个行向量的维数;
(d-2)通过公式cij=sign(Omij)对第i个行向量的第j维向量值mij进行哈希,将其映射到一个k维的向量上,计算得到哈希值cij,式中sign(·)为取符号函数,O为随机投影矩阵,O∈Ek×k,R为实数空间;
(d-3)第i个行向量所有k维的哈希值构成第i个行向量的特征向量表示
ci=[ci1,ci2,...,cij,...,cik]T
(d-4)通过公式
Figure FDA0004225246280000021
计算得到第i个行向量的哈希值
Figure FDA0004225246280000022
将所有n行向量的哈希值中具有相同哈希值的节点归为一个超边,得到超图结构及关联矩阵H∈Rn×n
(d-5)使用hMETIS算法将超图划分为q个子超图,第i个子超图为Hgi,i∈{1,...,q};
(d-6)改进的超图卷积模块由第一卷积层和第二卷积层构成,将第i个子超图Hgi输入到第一卷积层中,输出得到特征数据M(1)
(d-7)将特征数据M(1)输入到第二卷积层中,输出得到特征数据
Mconv_i
Mconv_i=[mconv1_i,mconv2_i,...,mconvj_i,...,mconvn_i],其中mconvj_i为第i个子超图的第j行向量,j∈{1,...,n};
(d-8)将特征数据Mconv_i输入到池化层中,输出得到池化后的特征数据M′conv_i
(d-9)将所有Q个子超图的池化后的特征数据使用PyTorch工具中的concat函数进行合并操作,得到融合后的超图特征向量数据M′;
步骤(d-6)中将第i个子超图Hgi输入到第一卷积层中通过公式
Figure FDA0004225246280000031
计算得到特征数据M(1),式中σ(·)为LeakyReLU激活函数,Dvi为第i个子超图为Hgi的顶点度的对角矩阵,Dei为第i个子超图为Hgi的超边度的对角矩阵,Hi为第i个子超图为Hgi的关联矩阵,
M(0)=M,θ(0)为第一卷积层的可学习的滤波器矩阵,W′为初始化的单位矩阵;
步骤(d-7)中将特征数据M(1)输入到第二卷积层中通过公式
Figure FDA0004225246280000041
计算得到特征数据Mconv_i,式中θ(1)为第一卷积层的可学习的滤波器矩阵。
2.根据权利要求1所述的基于时空超图卷积的加密应用程序行为流量检测方法,其特征在于:步骤(a-1)中使用Appium模拟用户进行App应用程序行为操作时每个应用程序行为操作持续时间大于等于30分钟,应用程序行为为浏览视频或播放音乐或登陆。
3.根据权利要求1所述的基于时空超图卷积的加密应用程序行为流量检测方法,其特征在于,步骤(b)中获得原始特征数据P的方法为:
将pcap流量数据集Q中的pcap数据输入到CICFlowMeter中,得到对应的包含关于流的特征信息的csv文件格式的原始特征数据P,
P=[p1,p2,...,pi,...,pn]T,其中pi为原始特征数据P中第i行向量,i∈{1,...,n},n为原始特征数据P中行数,T为矩阵转置。
4.根据权利要求1所述的基于时空超图卷积的加密应用程序行为流量检测方法,其特征在于,步骤(c)包括如下步骤:
(c-1)将原始特征数据P中的流ID、源IP、目的IP、时间戳去除;
(c-2)将原始特征数据P中的空值删除,将原始特征数据P中的inf值和NAN值进行补0操作;
(c-3)对原始特征数据P进行MinMaxScaler缩放,得到预处理后的特征数据X,X=[x1,x2,...,xi,...,xn]T,其中xi为预处理后的特征数据X中第i行向量,i∈{1,...,n};
(c-4)将预处理后的特征数据X输入到GRU网络中,输出得到加密应用程序行为流时间特征数据X′,X′=[x′1,x′2,...x′i,...,x′n]T,其中x′i为时间特征数据X′中第i行向量,i∈{1,...,n};
(c-5)将预处理后的特征数据X输入到1DCNN网络中,输出得到加密应用程序行为流量空间特征X′_,X′_=[x′_1,x′_2,...,x′_i,...,x′_n]T,其中x′_i为提取的加密应用程序行为流量空间特征X′_中第i行向量,i∈{1,...,n}。
5.根据权利要求1所述的基于时空超图卷积的加密应用程序行为流量检测方法,其特征在于:步骤(d-1)中使用PyTorch工具库中的concat()函数对加密应用程序行为流时间特征数据X′和加密应用程序行为流量空间特征X′_进行合并操作,合并时设置参数dim=1。
6.根据权利要求1所述的基于时空超图卷积的加密应用程序行为流量检测方法,其特征在于:还包括在步骤(f)后采用交叉熵损失函数利用Adam优化器优化步骤(f)的HG-ETC模型结构。
CN202310314700.7A 2023-03-29 2023-03-29 基于时空超图卷积的加密应用程序行为流量检测方法 Active CN116055224B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310314700.7A CN116055224B (zh) 2023-03-29 2023-03-29 基于时空超图卷积的加密应用程序行为流量检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310314700.7A CN116055224B (zh) 2023-03-29 2023-03-29 基于时空超图卷积的加密应用程序行为流量检测方法

Publications (2)

Publication Number Publication Date
CN116055224A CN116055224A (zh) 2023-05-02
CN116055224B true CN116055224B (zh) 2023-06-16

Family

ID=86133532

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310314700.7A Active CN116055224B (zh) 2023-03-29 2023-03-29 基于时空超图卷积的加密应用程序行为流量检测方法

Country Status (1)

Country Link
CN (1) CN116055224B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114723011A (zh) * 2022-04-13 2022-07-08 广东技术师范大学 一种面向动态图链接预测的高阶时序超图卷积网络运行方法
CN115082147A (zh) * 2022-06-14 2022-09-20 华南理工大学 一种基于超图神经网络的序列推荐方法及装置
CN115348074A (zh) * 2022-08-12 2022-11-15 北京航空航天大学 深度时空混合的云数据中心网络流量实时检测方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0907145A3 (en) * 1997-10-03 2003-03-26 Nippon Telegraph and Telephone Corporation Method and equipment for extracting image features from image sequence
CN111860951B (zh) * 2020-06-12 2023-09-26 北京工业大学 一种基于动态超图卷积网络的轨道交通客流预测方法
CN112235257A (zh) * 2020-09-24 2021-01-15 中国人民解放军战略支援部队信息工程大学 融合式加密恶意流量检测方法及系统
CN114611460A (zh) * 2022-02-08 2022-06-10 阿里巴巴(中国)有限公司 数据处理方法、装置、设备和存储介质
CN115174168A (zh) * 2022-06-22 2022-10-11 方盈金泰科技(北京)有限公司 一种时空特征组合的恶意加密流量检测方法
CN115762183A (zh) * 2022-11-03 2023-03-07 同济大学 基于几何代数和超图的交通速度预测方法
CN115830865A (zh) * 2022-11-18 2023-03-21 浙江大学 基于自适应超图卷积神经网络的车流量预测方法及装置
CN115866658B (zh) * 2023-02-06 2023-05-16 湖北工业大学 一种基于动态时空超图卷积网络的流量预测方法和系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114723011A (zh) * 2022-04-13 2022-07-08 广东技术师范大学 一种面向动态图链接预测的高阶时序超图卷积网络运行方法
CN115082147A (zh) * 2022-06-14 2022-09-20 华南理工大学 一种基于超图神经网络的序列推荐方法及装置
CN115348074A (zh) * 2022-08-12 2022-11-15 北京航空航天大学 深度时空混合的云数据中心网络流量实时检测方法

Also Published As

Publication number Publication date
CN116055224A (zh) 2023-05-02

Similar Documents

Publication Publication Date Title
WO2021103135A1 (zh) 一种基于深度神经网络的流量分类方法、系统及电子设备
CN109218223B (zh) 一种基于主动学习的鲁棒性网络流量分类方法及系统
WO2019144521A1 (zh) 信息物理交通系统中基于深度学习的恶意攻击检测方法
CN110084610B (zh) 一种基于孪生神经网络的网络交易欺诈检测系统
CN109639481A (zh) 一种基于深度学习的网络流量分类方法、系统及电子设备
CN110232373A (zh) 人脸聚类方法、装置、设备和存储介质
CN109902740B (zh) 一种基于多算法融合并行的再学习工业控制入侵检测方法
CN111008337B (zh) 一种基于三元特征的深度注意力谣言鉴别方法及装置
US11934536B2 (en) Dynamic network risk predicting method based on a graph neural network
CN113329023A (zh) 一种加密流量恶意性检测模型建立、检测方法及系统
Yang et al. One-class classification using generative adversarial networks
CN112491894A (zh) 一种基于时空特征学习的物联网网络攻击流量监测系统
CN114915575B (zh) 一种基于人工智能的网络流量检测装置
CN115270954A (zh) 基于异常节点识别的无监督的apt攻击检测方法和系统
CN112261063A (zh) 结合深度分层网络的网络恶意流量检测方法
Roshan et al. Deep learning approaches for anomaly and intrusion detection in computer network: A review
CN111130942A (zh) 一种基于消息大小分析的应用流量识别方法
CN113887642B (zh) 一种基于开放世界的网络流量分类方法及系统
CN113938290B (zh) 一种用户侧流量数据分析的网站去匿名方法和系统
CN116055224B (zh) 基于时空超图卷积的加密应用程序行为流量检测方法
CN117375896A (zh) 基于多尺度时空特征残差融合的入侵检测方法及系统
CN115118451B (zh) 结合图嵌入知识建模的网络入侵检测方法
CN117318980A (zh) 一种面向小样本场景的自监督学习恶意流量检测方法
CN114358177B (zh) 一种基于多维度特征紧凑决策边界的未知网络流量分类方法及系统
CN114124437B (zh) 基于原型卷积网络的加密流量识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant