CN116055224A - 基于时空超图卷积的加密应用程序行为流量检测方法 - Google Patents

基于时空超图卷积的加密应用程序行为流量检测方法 Download PDF

Info

Publication number
CN116055224A
CN116055224A CN202310314700.7A CN202310314700A CN116055224A CN 116055224 A CN116055224 A CN 116055224A CN 202310314700 A CN202310314700 A CN 202310314700A CN 116055224 A CN116055224 A CN 116055224A
Authority
CN
China
Prior art keywords
hypergraph
data
behavior
application program
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310314700.7A
Other languages
English (en)
Other versions
CN116055224B (zh
Inventor
韩晓晖
刘伟华
左文波
罗雪姣
刘洋
崔斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qilu University of Technology
Shandong Computer Science Center National Super Computing Center in Jinan
Original Assignee
Qilu University of Technology
Shandong Computer Science Center National Super Computing Center in Jinan
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qilu University of Technology, Shandong Computer Science Center National Super Computing Center in Jinan filed Critical Qilu University of Technology
Priority to CN202310314700.7A priority Critical patent/CN116055224B/zh
Publication of CN116055224A publication Critical patent/CN116055224A/zh
Application granted granted Critical
Publication of CN116055224B publication Critical patent/CN116055224B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • H04L47/2483Traffic characterised by specific attributes, e.g. priority or QoS involving identification of individual flows
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

一种基于时空超图卷积的加密应用程序行为流量检测方法,涉及网络安全领域,首先,通过捕获加密应用程序行为流量,然后通过使用CICFlowMeter提取流量的流特征数据,然后对这些特征数据进行清洗。分别将这些特征数据输入到GRU和1DCNN中,其中GRU可以很好地捕获加密流量的时序特征信息,1DCNN可以有效地捕获加密流量的空间特征信息。接下来,将这些捕获到的时序特征信息和空间特征信息进行融合,构建超图结构。构建超图后,我们将其输入到改进的超图卷积中,可以很好地学到流之间的多元关系信息,进而提升了模型的精度和泛化能力,改进的超图卷积学到的结构信息也具有更好的鲁棒性。

Description

基于时空超图卷积的加密应用程序行为流量检测方法
技术领域
本发明涉及网络安全领域,具体涉及一种基于时空超图卷积的加密应用程序行为流量检测方法。
背景技术
随着互联网的普及和信息技术的快速发展,移动手机和PC已经成为人们生活中不可或缺的一部分,然而手机和电脑中的应用程序参差不齐,包含着大量的恶意应用程序行为,诸如攻击、窃取数据等。因此亟待需要一种方法来检测应用程序的行为,来确保网络安全。
检测应用程序行为一般是从获取相关的加密应用程序行为流量开始,然后再使用相应的方法来检测流量,进而分析出是什么应用程序行为。目前流量识别技术主要有基于端口的方法、基于负载的方法、基于主机行为的方法,最近几年比较流行的是基于深度学习的方法。对于基于端口的方法来说,随着动态端口、端口伪装、端口随机等技术的使用,应用协议的日趋复杂和网络应用的多样化使得该方法很快失效,因此很难使用基于端口的技术来进行分类。随着加密技术的发展,大部分网络流量都采用了加密技术,所以当载荷进行加密后,基于负载的方法也变的失效。基于主机行为的方法一般来说识别精度较低,识别粒度较粗,难以满足对应用程序行为流量的检测。对于深度学习的流量识别方法,大部分方法存在着泛化能力较差、精度较低等问题,大部分模型没有考虑到流与流之间存在着丰富的多元关系。
发明内容
本发明为了克服以上技术的不足,提供了一种能够实现加密应用程序流量检测的高精度和鲁棒性,大大提高了加密流量检测模型的泛化能力的方法。
本发明克服其技术问题所采用的技术方案是:
一种基于时空超图卷积的加密应用程序行为流量检测方法,包括如下步骤:
(a)使用Wireshark捕获加密应用程序行为流量数据;
(b)使用CICFlowMeter从pcap流量数据集Q中抽取每条流的原始特征数据
Figure SMS_1
(c)对原始特征数据
Figure SMS_2
进行预处理,得到预处理后的特征数据
Figure SMS_3
,将特征数据
Figure SMS_4
输入到GRU网络中,输出得到加密应用程序行为流时间特征数据
Figure SMS_5
,将特征数据
Figure SMS_6
输入到1DCNN网络中,输出得到加密应用程序行为流量空间特征
Figure SMS_7
(d)将加密应用程序行为流时间特征数据
Figure SMS_8
和加密应用程序行为流量空间特征
Figure SMS_9
进行融合构建超图,将超图划分成
Figure SMS_10
个子超图后输入到改进的超图卷积模块中,得到融合后的超图特征向量数据
Figure SMS_11
(e)将融合后的超图特征向量数据
Figure SMS_12
输入到全连接层中,通过公式
Figure SMS_13
计算得到中间数据
Figure SMS_14
(f)将中间数据
Figure SMS_15
输入到SoftMax函数中,输出得到每个类别的概率分布
Figure SMS_16
,完成HG-ETC模型结构的建立,概率分布
Figure SMS_17
为[0-1]的概率部分,取概率分布
Figure SMS_18
中最大值的索引值作为对应的加密应用程序行为类别。
进一步的,步骤(a)包括如下步骤:
(a-1)使用Appium模拟用户进行App应用程序行为操作;
(a-2)使用Wireshark同步抓包,收集App应用程序行为的流量数据,流量数据的格式为pcap格式,将数据进行标注,标注完成后,形成原始pcap流量数据集Q。
优选的,步骤(a-1)中使用Appium模拟用户进行App应用程序行为操作时每个应用程序行为操作持续时间大于等于30分钟,应用程序行为为浏览视频或播放音乐或登陆。
进一步的,步骤(b)中获得原始特征数据
Figure SMS_19
的方法为:
将pcap流量数据集Q中的pcap数据输入到CICFlowMeter中,得到对应的包含关于流的特征信息的csv文件格式的原始特征数据
Figure SMS_21
Figure SMS_24
,其中
Figure SMS_27
为原始特征数据
Figure SMS_22
中第
Figure SMS_25
行向量,
Figure SMS_26
Figure SMS_28
为原始特征数据
Figure SMS_20
中行数,
Figure SMS_23
为矩阵转置。
进一步的,步骤(c)包括如下步骤:
(c-1)将原始特征数据
Figure SMS_29
中的流ID、源IP、目的IP、时间戳去除;
(c-2)将原始特征数据
Figure SMS_30
中的空值删除,将原始特征数据
Figure SMS_31
中的inf值和NAN值进行补0操作;
(c-3)对原始特征数据
Figure SMS_32
进行MinMaxScaler缩放,得到预处理后的特征数据
Figure SMS_33
Figure SMS_34
,其中
Figure SMS_35
为预处理后的特征数据
Figure SMS_36
中第
Figure SMS_37
行向量,
Figure SMS_38
(c-4)将预处理后的特征数据
Figure SMS_39
输入到GRU网络中,输出得到加密应用程序行为流时间特征数据
Figure SMS_40
Figure SMS_41
,其中
Figure SMS_42
为时间特征数据
Figure SMS_43
中第
Figure SMS_44
行向量,
Figure SMS_45
(c-5)将预处理后的特征数据
Figure SMS_46
输入到1DCNN网络中,输出得到加密应用程序行为流量空间特征
Figure SMS_47
Figure SMS_48
,其中
Figure SMS_49
为提取的加密应用程序行为流量空间特征
Figure SMS_50
中第
Figure SMS_51
行向量,
Figure SMS_52
进一步的,步骤(d)包括如下步骤:
(d-1)将加密应用程序行为流时间特征数据
Figure SMS_54
和加密应用程序行为流量空间特征
Figure SMS_57
进行合并操作,得到合并的特征向量数据集
Figure SMS_61
Figure SMS_56
,其中
Figure SMS_60
为特征向量数据集
Figure SMS_64
的第
Figure SMS_66
个行的向量,
Figure SMS_53
Figure SMS_59
Figure SMS_63
为第
Figure SMS_67
个行向量的第
Figure SMS_55
维向量值,
Figure SMS_58
Figure SMS_62
为第
Figure SMS_65
个行向量的维数;
(d-2)通过公式
Figure SMS_70
对第
Figure SMS_72
个行向量的第
Figure SMS_74
维向量值
Figure SMS_69
进行哈希,将其映射到一个
Figure SMS_73
维的向量上,计算得到哈希值
Figure SMS_75
,式中
Figure SMS_77
为取符号函数,
Figure SMS_68
为随机投影矩阵,
Figure SMS_71
Figure SMS_76
为实数空间;
(d-3)第
Figure SMS_78
个行向量所有
Figure SMS_79
维的哈希值构成第
Figure SMS_80
个行向量的特征向量表示
Figure SMS_81
(d-4)通过公式
Figure SMS_82
计算得到第
Figure SMS_83
个行向量的哈希值
Figure SMS_84
,将所有
Figure SMS_85
行向量的哈希值中具有相同哈希值的节点归为一个超边,得到超图结构及关联矩阵
Figure SMS_86
(d-5)使用hMETIS算法将超图划分为
Figure SMS_87
个子超图,第
Figure SMS_88
个子超图为
Figure SMS_89
Figure SMS_90
(d-6)改进的超图卷积模块由第一卷积层和第二卷积层构成,将第
Figure SMS_91
个子超图
Figure SMS_92
输入到第一卷积层中,输出得到特征数据
Figure SMS_93
(d-7)将特征数据
Figure SMS_94
输入到第二卷积层中,输出得到特征数据
Figure SMS_95
Figure SMS_96
,其中
Figure SMS_97
为第
Figure SMS_98
个子超图的第
Figure SMS_99
行向量,
Figure SMS_100
(d-8)将特征数据
Figure SMS_101
输入到池化层中,输出得到池化后的特征数据
Figure SMS_102
(d-9)将所有
Figure SMS_103
个子超图的池化后的特征数据使用PyTorch工具中的concat函数进行合并操作,得到融合后的超图特征向量数据
Figure SMS_104
优选的,步骤(d-1)中使用PyTorch工具库中的concat()函数对加密应用程序行为流时间特征数据
Figure SMS_105
和加密应用程序行为流量空间特征
Figure SMS_106
进行合并操作,合并时设置参数dim=1。
进一步的,步骤(d-6)中将第
Figure SMS_118
个子超图
Figure SMS_108
输入到第一卷积层中通过公式
Figure SMS_113
计算得到特征数据
Figure SMS_117
,式中
Figure SMS_120
为LeakyReLU激活函数,
Figure SMS_122
为第
Figure SMS_123
个子超图为
Figure SMS_115
的顶点度的对角矩阵,
Figure SMS_119
为第
Figure SMS_107
个子超图为
Figure SMS_112
的超边度的对角矩阵,
Figure SMS_110
为第
Figure SMS_111
个子超图为
Figure SMS_116
的关联矩阵,
Figure SMS_121
Figure SMS_109
为第一卷积层的可学习的滤波器矩阵,
Figure SMS_114
为初始化的单位矩阵。
进一步的,步骤(d-7)中将特征数据
Figure SMS_124
输入到第二卷积层中通过公式
Figure SMS_125
计算得到特征数据
Figure SMS_126
,式中
Figure SMS_127
为第一卷积层的可学习的滤波器矩阵。
进一步的,还包括在步骤(f)后采用交叉熵损失函数利用Adam优化器优化步骤(f)的HG-ETC模型结构。
本发明的有益效果是:首先,通过捕获加密应用程序行为流量,然后通过使用CICFlowMeter提取流量的流特征数据,然后对这些特征数据进行清洗。分别将这些特征数据输入到GRU和1DCNN中,其中GRU可以很好地捕获加密流量的时序特征信息,1DCNN可以有效地捕获加密流量的空间特征信息。接下来,将这些捕获到的时序特征信息和空间特征信息进行融合,构建超图结构。超图作为一种特殊的图结构化数据,超图可以一条边上连接多个顶点,所以可以有效地表达流之间的多元信息。在本发明中,一条流表示一个超图的节点,超边则代表流与流之间的多元关系。构建超图后,我们将其输入到改进的超图卷积中,可以很好地学到流之间的多元关系信息,进而提升了模型的精度和泛化能力,改进的超图卷积学到的结构信息也具有更好的鲁棒性。
附图说明
图1为本发明的加密应用程序行为流量检测方法流程图;
图2为本发明的加密应用程序行为流量检测方法结构示意图;
图3为本发明的改进的超图卷积神经网络架构示意图。
具体实施方式
下面结合附图1、附图2、附图3对本发明做进一步说明。
如附图1所示,一种基于时空超图卷积的加密应用程序行为流量检测方法,包括如下步骤:
(a)使用Wireshark捕获加密应用程序行为流量数据。
(b)使用CICFlowMeter从pcap流量数据集Q中抽取每条流的原始特征数据
Figure SMS_128
。CICFlowMeter是一款流量特征提取工具,该工具输入pcap文件,输出pcap文件中每条流的原始特征信息,以csv表格的形式输出。CICFlowMeter提取的主要是传输层的一些统计信息。
(c)对原始特征数据
Figure SMS_129
进行预处理,得到预处理后的特征数据
Figure SMS_130
,将特征数据
Figure SMS_131
输入到GRU网络中,输出得到加密应用程序行为流时间特征数据
Figure SMS_132
,将特征数据
Figure SMS_133
输入到1DCNN网络中,输出得到加密应用程序行为流量空间特征
Figure SMS_134
(d)将加密应用程序行为流时间特征数据
Figure SMS_148
和加密应用程序行为流量空间特征
Figure SMS_138
进行融合构建超图。超图,是一种比较特殊的图形结构,与普通图不同之处在于它允许一条边连接多个节点。传统的图由一组节点和连接这些节点的边组成,每条边只能连接两个节点。而超图的边可以连接多个节点,这些节点组成的集合称为超边。超图的定义形式为
Figure SMS_143
,其中
Figure SMS_136
是节点的集合,
Figure SMS_141
是超边的集合,
Figure SMS_145
表示每个超边的权重值。其中超图
Figure SMS_149
可以使用
Figure SMS_142
大小的关联矩阵
Figure SMS_146
进行表示,其中
Figure SMS_135
,其条目可以定义为
Figure SMS_139
,如果某个节点属于某个超边,则关联矩阵
Figure SMS_150
对应位置的值为1,否则的话为0。对于节点
Figure SMS_153
,那么节点的度可以表示为
Figure SMS_152
Figure SMS_155
一般初始化为1,对于边
Figure SMS_144
,那么边的度可以表示成
Figure SMS_147
,边的度构成的对角矩阵记为
Figure SMS_151
,节点的度构成的对角矩阵记为
Figure SMS_154
,超图结构为现有技术,这里不再赘述。如附图3所示,将超图划分成
Figure SMS_137
个子超图后输入到改进的超图卷积模块中,得到融合后的超图特征向量数据
Figure SMS_140
(e)将融合后的超图特征向量数据
Figure SMS_156
输入到全连接层中,通过公式
Figure SMS_157
计算得到中间数据
Figure SMS_158
(f)将中间数据
Figure SMS_159
输入到SoftMax函数中,输出得到每个类别的概率分布
Figure SMS_160
,完成HG-ETC模型结构的建立,概率分布
Figure SMS_161
为[0-1]的概率部分,取概率分布
Figure SMS_162
中最大值的索引值作为对应的加密应用程序行为类别。
该方法能够同时捕捉加密流量的时间特征、空间特征、流与流之间的多元关系特征。能够实现加密应用程序流量检测的高精度和鲁棒性,大大提高了加密流量检测模型的泛化能力。
如附图2所示,该基于时空超图卷积的加密应用程序行为流量检测方法为:
步骤201为获取到pcap流量数据,步骤202为将pcap数据使用CICFlowMeter进行处理,抽取原始流量特征数据,步骤203为对提取的原始特征数据进行预处理,包括对数据进行去除空值,去掉一些对加密流量分类影响较小的特征数据,对数据进行MinMaxScaler处理,进行过采样处理。步骤204和步骤205为将上步203得到的数据分别输入到GRU和1DCNN中学到加密应用程序行为流量的时序特征和空间特征。步骤206是将上步205得到的时序特征和空间特征进行聚合后得到特征数据节点。步骤207为构建超图的操作,通过哈希函数将节点特征映射到k维向量,然后对每个特征向量的值按位与运算,得到每个节点的哈希值,然后哈希值相等的节点使用同一个超边连接。步骤208为将得到的超图使用hMETIS算法划分成多个子超图。步骤209为将子超图数据输入到构建的多尺度融合卷积中学习特征。步骤210为将学到的隐层表示通入全连接层,然后通入SoftMax分类器,使用交叉熵损失函数计算损失,并保存模型参数。步骤211为使用训练好的模型进行应用程序行为分类。
根据表一的实验结果,使用本发明提供的多尺度融合超图卷积准确度达到了94.11%,精确度达到了93.98%,F1分数达到了94.08%召回率达到了93.25%。相比于其他传统的实验方法,精度有较大的提升,具有良好的应用程序行为识别效果。
表一,大规模应用程序行为流量数据集在不同模型中的实验结果
Figure SMS_163
根据表二的实验结果,使用本发明提供的多尺度融合超图卷积在Wang的数据集上进行了验证,得到上表结果,准确度达到了93.52%,精确度达到了94.88%,F1分数达到了95.03%,召回率达到了95.15%,实验表示本方法具有良好的泛化能力。
表二,大规模应用程序行为流量数据集在Wang的数据集上的验证结果
Figure SMS_164
在本发明的一个实施例中,步骤(a)包括如下步骤:
(a-1)使用Appium模拟用户进行App应用程序行为操作。Appium是一个开源的移动端自动化测试工具,支持跨平台,可以在OSX,Windows以及Linux桌面系统上运行。进一步优选的,步骤(a-1)中使用Appium模拟用户进行App应用程序行为操作时每个应用程序行为操作持续时间大于等于30分钟,应用程序行为为浏览视频或播放音乐或登陆。
(a-2)使用Wireshark同步抓包,收集App应用程序行为的流量数据,流量数据的格式为pcap格式,将数据进行标注,标注完成后,形成原始pcap流量数据集Q。
在本发明的一个实施例中,步骤(b)中获得原始特征数据
Figure SMS_165
的方法为:
将pcap流量数据集Q中的pcap数据输入到CICFlowMeter中,得到对应的包含关于流的特征信息的csv文件格式的原始特征数据
Figure SMS_168
Figure SMS_170
,其中
Figure SMS_172
为原始特征数据
Figure SMS_167
中第
Figure SMS_171
行向量,
Figure SMS_173
Figure SMS_174
为原始特征数据
Figure SMS_166
中行数,
Figure SMS_169
为矩阵转置。csv文件中包含大量的关于流的特征信息,一共有84维特征数据。
步骤(c)包括如下步骤:
(c-1)将原始特征数据
Figure SMS_175
中的流ID、源IP、目的IP、时间戳去除,因为这些特征已经被证明对加密流量分类影响较小。
(c-2)将原始特征数据
Figure SMS_176
中的空值删除,将原始特征数据
Figure SMS_177
中的inf值和NAN值进行补0操作。
(c-3)为了使不同量纲的特征处于同一数值量级,减少方差大的特征的影响,使模型更准确并加快学习算法的收敛速度,我们对原始特征数据
Figure SMS_178
进行MinMaxScaler缩放,得到预处理后的特征数据
Figure SMS_179
Figure SMS_180
,其中
Figure SMS_181
为预处理后的特征数据
Figure SMS_182
中第
Figure SMS_183
行向量,
Figure SMS_184
MinMaxScaler缩放公式为:
Figure SMS_185
Figure SMS_186
,式中
Figure SMS_187
是当前特征列的最小值,
Figure SMS_188
是当前特征列的最大值,
Figure SMS_189
默认值为1,
Figure SMS_190
默认值为0。接下来如果数据集样本不平衡,则采用过采样方法缓解样本的不平衡问题,过采样的原理是从少数类的样本中进行随机采样来增加新样本。使用的过采样代码如下所示:
fromimblearn.over_sampling import RandomOverSampler
ROS = RandomOverSampler(random_state=0)
X_resampled, y_resampled = ROS.fit_sample(P, y)
(c-4)将预处理后的特征数据
Figure SMS_191
输入到GRU网络中,输出得到加密应用程序行为流时间特征数据
Figure SMS_192
Figure SMS_193
,其中
Figure SMS_194
为时间特征数据
Figure SMS_195
中第
Figure SMS_196
行向量,
Figure SMS_197
。GRU相对于长短期记忆网络(LSTM)来说,GRU只有两个门,一个更新门,一个重置门,更新门用于控制前一时刻的状态信息被带入到当前状态中的程度,更新门的值越大说明前一时刻的状态信息带入越多;重置门用于控制忽略前一时刻的状态信息的程度,重置门的值越小说明忽略得越多。GRU和LSTM作用相同,在捕捉长序列语义关联时,能有效抑制梯度消失或爆炸,效果都优于传统RNN,但计算复杂度相比LSTM要小。GRU模型简单,参数量更少,训练速度更快,因此更适用于构建较大的网络。它只有两个门控,从计算角度看,效率更高,它的可扩展性有利于构筑较大的模型;但LSTM因为它具有三个门控,更加的强大和灵活,表达能力更强,同时训练速度会比GRU慢一些。
(c-5)将预处理后的特征数据
Figure SMS_199
输入到1DCNN网络中,输出得到加密应用程序行为流量空间特征
Figure SMS_202
Figure SMS_204
,其中
Figure SMS_200
为提取的加密应用程序行为流量空间特征
Figure SMS_203
中第
Figure SMS_205
行向量,
Figure SMS_206
。具体的预处理后的特征数据
Figure SMS_198
通入1DCNN网络的一维卷积层,经过ReLU激活函数后,通入最大池化层,然后再通入一维卷积层,经过1DCNN网络的ReLU激活函数后通入平均池化层,最后得到提取的加密应用程序行为流量空间特征
Figure SMS_201
在本发明的一个实施例中,将得到的流时间特征和流空间特征进行融合构建超图,划分子超图后输入到改进的超图卷积中训练,在考虑高阶数据结构的情况下学习隐含层表示。具体的,步骤(d)包括如下步骤:
(d-1)将加密应用程序行为流时间特征数据
Figure SMS_216
和加密应用程序行为流量空间特征
Figure SMS_208
进行合并操作,得到合并的特征向量数据集
Figure SMS_211
Figure SMS_210
,其中
Figure SMS_214
为特征向量数据集
Figure SMS_218
的第
Figure SMS_222
个行的向量,
Figure SMS_215
Figure SMS_219
Figure SMS_207
为第
Figure SMS_212
个行向量的第
Figure SMS_217
维向量值,
Figure SMS_220
Figure SMS_221
为第
Figure SMS_223
个行向量的维数。优选的,步骤(d-1)中使用PyTorch工具库中的concat()函数对加密应用程序行为流时间特征数据
Figure SMS_209
和加密应用程序行为流量空间特征
Figure SMS_213
进行合并操作,合并时设置参数dim=1。
(d-2)为了优化计算复杂度,使用本发明提供的哈希法构建超边。具体的,通过公式
Figure SMS_225
对第
Figure SMS_227
个行向量的第
Figure SMS_230
维向量值
Figure SMS_226
进行哈希,将其映射到一个
Figure SMS_228
维的向量上,计算得到哈希值
Figure SMS_231
,式中
Figure SMS_233
为取符号函数,
Figure SMS_224
为随机投影矩阵,
Figure SMS_229
Figure SMS_232
为实数空间。
(d-3)第
Figure SMS_234
个行向量所有
Figure SMS_235
维的哈希值构成第
Figure SMS_236
个行向量的特征向量表示
Figure SMS_237
(d-4)通过公式
Figure SMS_238
计算得到第
Figure SMS_239
个行向量的哈希值
Figure SMS_240
,将所有
Figure SMS_241
行向量的哈希值中具有相同哈希值的节点归为一个超边,得到超图结构及关联矩阵
Figure SMS_242
(d-5)如附图3所示,使用hMETIS算法(一种划分超图的算法)将超图划分为
Figure SMS_243
个子超图,第
Figure SMS_244
个子超图为
Figure SMS_245
Figure SMS_246
(d-6)改进的超图卷积模块由第一卷积层和第二卷积层构成,将第
Figure SMS_247
个子超图
Figure SMS_248
输入到第一卷积层中,输出得到特征数据
Figure SMS_249
(d-7)将特征数据
Figure SMS_250
输入到第二卷积层中,输出得到特征数据
Figure SMS_251
Figure SMS_252
,其中
Figure SMS_253
为第
Figure SMS_254
个子超图的第
Figure SMS_255
行向量,
Figure SMS_256
(d-8)将特征数据
Figure SMS_257
输入到池化层中,输出得到池化后的特征数据
Figure SMS_258
(d-9)将所有
Figure SMS_259
个子超图的池化后的特征数据使用PyTorch工具中的concat函数进行合并操作,得到融合后的超图特征向量数据
Figure SMS_260
在本发明的一个实施例中,步骤(d-6)中将第
Figure SMS_270
个子超图
Figure SMS_262
输入到第一卷积层中通过公式
Figure SMS_266
计算得到特征数据
Figure SMS_275
,式中
Figure SMS_278
为LeakyReLU激活函数,
Figure SMS_279
为第
Figure SMS_281
个子超图为
Figure SMS_271
的顶点度的对角矩阵,
Figure SMS_274
为第
Figure SMS_261
个子超图为
Figure SMS_267
的超边度的对角矩阵,
Figure SMS_263
为第
Figure SMS_265
个子超图为
Figure SMS_269
的关联矩阵,
Figure SMS_273
Figure SMS_272
为第一卷积层的可学习的滤波器矩阵,
Figure SMS_276
为初始化的单位矩阵。步骤(d-7)中将特征数据
Figure SMS_277
输入到第二卷积层中通过公式
Figure SMS_280
计算得到特征数据
Figure SMS_264
,式中
Figure SMS_268
为第一卷积层的可学习的滤波器矩阵。
还包括在步骤(f)后采用交叉熵损失函数利用Adam优化器优化步骤(f)的HG-ETC模型结构。训练结束后,保存模型为.pt文件格式,然后就可以对加密应用程序行为流量进行预测,预测相应的应用程序行为。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于时空超图卷积的加密应用程序行为流量检测方法,其特征在于,包括如下步骤:
(a)使用Wireshark捕获加密应用程序行为流量数据;
(b)使用CICFlowMeter从pcap流量数据集Q中抽取每条流的原始特征数据
Figure QLYQS_1
(c)对原始特征数据
Figure QLYQS_2
进行预处理,得到预处理后的特征数据
Figure QLYQS_3
,将特征数据
Figure QLYQS_4
输入到GRU网络中,输出得到加密应用程序行为流时间特征数据
Figure QLYQS_5
,将特征数据
Figure QLYQS_6
输入到1DCNN网络中,输出得到加密应用程序行为流量空间特征
Figure QLYQS_7
(d)将加密应用程序行为流时间特征数据
Figure QLYQS_8
和加密应用程序行为流量空间特征
Figure QLYQS_9
进行融合构建超图,将超图划分成
Figure QLYQS_10
个子超图后输入到改进的超图卷积模块中,得到融合后的超图特征向量数据
Figure QLYQS_11
(e)将融合后的超图特征向量数据
Figure QLYQS_12
输入到全连接层中,通过公式
Figure QLYQS_13
计算得到中间数据
Figure QLYQS_14
(f)将中间数据
Figure QLYQS_15
输入到SoftMax函数中,输出得到每个类别的概率分布
Figure QLYQS_16
,完成HG-ETC模型结构的建立,概率分布
Figure QLYQS_17
为[0-1]的概率部分,取概率分布
Figure QLYQS_18
中最大值的索引值作为对应的加密应用程序行为类别。
2.根据权利要求1所述的基于时空超图卷积的加密应用程序行为流量检测方法,其特征在于,步骤(a)包括如下步骤:
(a-1)使用Appium模拟用户进行App应用程序行为操作;
(a-2)使用Wireshark同步抓包,收集App应用程序行为的流量数据,流量数据的格式为pcap格式,将数据进行标注,标注完成后,形成原始pcap流量数据集Q。
3.根据权利要求1所述的基于时空超图卷积的加密应用程序行为流量检测方法,其特征在于:步骤(a-1)中使用Appium模拟用户进行App应用程序行为操作时每个应用程序行为操作持续时间大于等于30分钟,应用程序行为为浏览视频或播放音乐或登陆。
4.根据权利要求1所述的基于时空超图卷积的加密应用程序行为流量检测方法,其特征在于,步骤(b)中获得原始特征数据
Figure QLYQS_19
的方法为:
将pcap流量数据集Q中的pcap数据输入到CICFlowMeter中,得到对应的包含关于流的特征信息的csv文件格式的原始特征数据
Figure QLYQS_21
Figure QLYQS_25
,其中
Figure QLYQS_27
为原始特征数据
Figure QLYQS_22
中第
Figure QLYQS_24
行向量,
Figure QLYQS_26
Figure QLYQS_28
为原始特征数据
Figure QLYQS_20
中行数,
Figure QLYQS_23
为矩阵转置。
5.根据权利要求1所述的基于时空超图卷积的加密应用程序行为流量检测方法,其特征在于,步骤(c)包括如下步骤:
(c-1)将原始特征数据
Figure QLYQS_29
中的流ID、源IP、目的IP、时间戳去除;
(c-2)将原始特征数据
Figure QLYQS_30
中的空值删除,将原始特征数据
Figure QLYQS_31
中的inf值和NAN值进行补0操作;
(c-3)对原始特征数据
Figure QLYQS_32
进行MinMaxScaler缩放,得到预处理后的特征数据
Figure QLYQS_33
Figure QLYQS_34
,其中
Figure QLYQS_35
为预处理后的特征数据
Figure QLYQS_36
中第
Figure QLYQS_37
行向量,
Figure QLYQS_38
(c-4)将预处理后的特征数据
Figure QLYQS_39
输入到GRU网络中,输出得到加密应用程序行为流时间特征数据
Figure QLYQS_40
Figure QLYQS_41
,其中
Figure QLYQS_42
为时间特征数据
Figure QLYQS_43
中第
Figure QLYQS_44
行向量,
Figure QLYQS_45
(c-5)将预处理后的特征数据
Figure QLYQS_46
输入到1DCNN网络中,输出得到加密应用程序行为流量空间特征
Figure QLYQS_47
Figure QLYQS_48
,其中
Figure QLYQS_49
为提取的加密应用程序行为流量空间特征
Figure QLYQS_50
中第
Figure QLYQS_51
行向量,
Figure QLYQS_52
6.根据权利要求1所述的基于时空超图卷积的加密应用程序行为流量检测方法,其特征在于,步骤(d)包括如下步骤:
(d-1)将加密应用程序行为流时间特征数据
Figure QLYQS_54
和加密应用程序行为流量空间特征
Figure QLYQS_58
进行合并操作,得到合并的特征向量数据集
Figure QLYQS_62
Figure QLYQS_56
,其中
Figure QLYQS_60
为特征向量数据集
Figure QLYQS_64
的第
Figure QLYQS_66
个行的向量,
Figure QLYQS_53
Figure QLYQS_57
Figure QLYQS_61
为第
Figure QLYQS_65
个行向量的第
Figure QLYQS_55
维向量值,
Figure QLYQS_59
Figure QLYQS_63
为第
Figure QLYQS_67
个行向量的维数;
(d-2)通过公式
Figure QLYQS_69
对第
Figure QLYQS_73
个行向量的第
Figure QLYQS_76
维向量值
Figure QLYQS_70
进行哈希,将其映射到一个
Figure QLYQS_72
维的向量上,计算得到哈希值
Figure QLYQS_75
,式中
Figure QLYQS_77
为取符号函数,
Figure QLYQS_68
为随机投影矩阵,
Figure QLYQS_71
Figure QLYQS_74
为实数空间;
(d-3)第
Figure QLYQS_78
个行向量所有
Figure QLYQS_79
维的哈希值构成第
Figure QLYQS_80
个行向量的特征向量表示
Figure QLYQS_81
(d-4)通过公式
Figure QLYQS_82
计算得到第
Figure QLYQS_83
个行向量的哈希值
Figure QLYQS_84
,将所有
Figure QLYQS_85
行向量的哈希值中具有相同哈希值的节点归为一个超边,得到超图结构及关联矩阵
Figure QLYQS_86
(d-5)使用hMETIS算法将超图划分为
Figure QLYQS_87
个子超图,第
Figure QLYQS_88
个子超图为
Figure QLYQS_89
Figure QLYQS_90
(d-6)改进的超图卷积模块由第一卷积层和第二卷积层构成,将第
Figure QLYQS_91
个子超图
Figure QLYQS_92
输入到第一卷积层中,输出得到特征数据
Figure QLYQS_93
(d-7)将特征数据
Figure QLYQS_94
输入到第二卷积层中,输出得到特征数据
Figure QLYQS_95
Figure QLYQS_96
,其中
Figure QLYQS_97
为第
Figure QLYQS_98
个子超图的第
Figure QLYQS_99
行向量,
Figure QLYQS_100
(d-8)将特征数据
Figure QLYQS_101
输入到池化层中,输出得到池化后的特征数据
Figure QLYQS_102
(d-9)将所有
Figure QLYQS_103
个子超图的池化后的特征数据使用PyTorch工具中的concat函数进行合并操作,得到融合后的超图特征向量数据
Figure QLYQS_104
7.根据权利要求1所述的基于时空超图卷积的加密应用程序行为流量检测方法,其特征在于:步骤(d-1)中使用PyTorch工具库中的concat()函数对加密应用程序行为流时间特征数据
Figure QLYQS_105
和加密应用程序行为流量空间特征
Figure QLYQS_106
进行合并操作,合并时设置参数dim=1。
8.根据权利要求6所述的基于时空超图卷积的加密应用程序行为流量检测方法,其特征在于:步骤(d-6)中将第
Figure QLYQS_116
个子超图
Figure QLYQS_109
输入到第一卷积层中通过公式
Figure QLYQS_111
计算得到特征数据
Figure QLYQS_118
,式中
Figure QLYQS_122
为LeakyReLU激活函数,
Figure QLYQS_120
为第
Figure QLYQS_123
个子超图为
Figure QLYQS_117
的顶点度的对角矩阵,
Figure QLYQS_121
为第
Figure QLYQS_107
个子超图为
Figure QLYQS_113
的超边度的对角矩阵,
Figure QLYQS_110
为第
Figure QLYQS_112
个子超图为
Figure QLYQS_115
的关联矩阵,
Figure QLYQS_119
Figure QLYQS_108
为第一卷积层的可学习的滤波器矩阵,
Figure QLYQS_114
为初始化的单位矩阵。
9.根据权利要求6所述的基于时空超图卷积的加密应用程序行为流量检测方法,其特征在于:步骤(d-7)中将特征数据
Figure QLYQS_124
输入到第二卷积层中通过公式
Figure QLYQS_125
计算得到特征数据
Figure QLYQS_126
,式中
Figure QLYQS_127
为第一卷积层的可学习的滤波器矩阵。
10.根据权利要求1所述的基于时空超图卷积的加密应用程序行为流量检测方法,其特征在于:还包括在步骤(f)后采用交叉熵损失函数利用Adam优化器优化步骤(f)的HG-ETC模型结构。
CN202310314700.7A 2023-03-29 2023-03-29 基于时空超图卷积的加密应用程序行为流量检测方法 Active CN116055224B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310314700.7A CN116055224B (zh) 2023-03-29 2023-03-29 基于时空超图卷积的加密应用程序行为流量检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310314700.7A CN116055224B (zh) 2023-03-29 2023-03-29 基于时空超图卷积的加密应用程序行为流量检测方法

Publications (2)

Publication Number Publication Date
CN116055224A true CN116055224A (zh) 2023-05-02
CN116055224B CN116055224B (zh) 2023-06-16

Family

ID=86133532

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310314700.7A Active CN116055224B (zh) 2023-03-29 2023-03-29 基于时空超图卷积的加密应用程序行为流量检测方法

Country Status (1)

Country Link
CN (1) CN116055224B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6263089B1 (en) * 1997-10-03 2001-07-17 Nippon Telephone And Telegraph Corporation Method and equipment for extracting image features from image sequence
CN111860951A (zh) * 2020-06-12 2020-10-30 北京工业大学 一种基于动态超图卷积网络的轨道交通客流预测方法
CN112235257A (zh) * 2020-09-24 2021-01-15 中国人民解放军战略支援部队信息工程大学 融合式加密恶意流量检测方法及系统
CN114611460A (zh) * 2022-02-08 2022-06-10 阿里巴巴(中国)有限公司 数据处理方法、装置、设备和存储介质
CN114723011A (zh) * 2022-04-13 2022-07-08 广东技术师范大学 一种面向动态图链接预测的高阶时序超图卷积网络运行方法
CN115082147A (zh) * 2022-06-14 2022-09-20 华南理工大学 一种基于超图神经网络的序列推荐方法及装置
CN115174168A (zh) * 2022-06-22 2022-10-11 方盈金泰科技(北京)有限公司 一种时空特征组合的恶意加密流量检测方法
CN115348074A (zh) * 2022-08-12 2022-11-15 北京航空航天大学 深度时空混合的云数据中心网络流量实时检测方法
CN115762183A (zh) * 2022-11-03 2023-03-07 同济大学 基于几何代数和超图的交通速度预测方法
CN115830865A (zh) * 2022-11-18 2023-03-21 浙江大学 基于自适应超图卷积神经网络的车流量预测方法及装置
CN115866658A (zh) * 2023-02-06 2023-03-28 湖北工业大学 一种基于动态时空超图卷积网络的流量预测方法和系统

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6263089B1 (en) * 1997-10-03 2001-07-17 Nippon Telephone And Telegraph Corporation Method and equipment for extracting image features from image sequence
CN111860951A (zh) * 2020-06-12 2020-10-30 北京工业大学 一种基于动态超图卷积网络的轨道交通客流预测方法
CN112235257A (zh) * 2020-09-24 2021-01-15 中国人民解放军战略支援部队信息工程大学 融合式加密恶意流量检测方法及系统
CN114611460A (zh) * 2022-02-08 2022-06-10 阿里巴巴(中国)有限公司 数据处理方法、装置、设备和存储介质
CN114723011A (zh) * 2022-04-13 2022-07-08 广东技术师范大学 一种面向动态图链接预测的高阶时序超图卷积网络运行方法
CN115082147A (zh) * 2022-06-14 2022-09-20 华南理工大学 一种基于超图神经网络的序列推荐方法及装置
CN115174168A (zh) * 2022-06-22 2022-10-11 方盈金泰科技(北京)有限公司 一种时空特征组合的恶意加密流量检测方法
CN115348074A (zh) * 2022-08-12 2022-11-15 北京航空航天大学 深度时空混合的云数据中心网络流量实时检测方法
CN115762183A (zh) * 2022-11-03 2023-03-07 同济大学 基于几何代数和超图的交通速度预测方法
CN115830865A (zh) * 2022-11-18 2023-03-21 浙江大学 基于自适应超图卷积神经网络的车流量预测方法及装置
CN115866658A (zh) * 2023-02-06 2023-03-28 湖北工业大学 一种基于动态时空超图卷积网络的流量预测方法和系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LI ZOU; XUEMEI LUO; YAN ZHANG; XIAO YANG; XIANGWEN WANG: "HC-DTTSVM: A Network Intrusion Detection Method Based on Decision Tree Twin Support Vector Machine and Hierarchical Clustering", 《 IEEE ACCESS ( VOLUME: 11)》 *
孙晓利: "基于时间子图模式的网络流量异常检测关键技术", 《中国优秀硕士学位论文全文数据库》 *
牛伟纳;蒋天宇;张小松;谢娇;张俊哲;赵振扉;: "基于流量时空特征的fast-flux僵尸网络检测方法", 《电子与信息学报》, no. 08 *

Also Published As

Publication number Publication date
CN116055224B (zh) 2023-06-16

Similar Documents

Publication Publication Date Title
CN109218223B (zh) 一种基于主动学习的鲁棒性网络流量分类方法及系统
WO2021103135A1 (zh) 一种基于深度神经网络的流量分类方法、系统及电子设备
CN110084610B (zh) 一种基于孪生神经网络的网络交易欺诈检测系统
US11934536B2 (en) Dynamic network risk predicting method based on a graph neural network
CN111008337B (zh) 一种基于三元特征的深度注意力谣言鉴别方法及装置
CN109831392A (zh) 半监督网络流量分类方法
CN115118451B (zh) 结合图嵌入知识建模的网络入侵检测方法
CN112491894A (zh) 一种基于时空特征学习的物联网网络攻击流量监测系统
CN115270954A (zh) 基于异常节点识别的无监督的apt攻击检测方法和系统
CN111130942B (zh) 一种基于消息大小分析的应用流量识别方法
CN113938290B (zh) 一种用户侧流量数据分析的网站去匿名方法和系统
CN118337469A (zh) 应用于节点时序交互的动态网络入侵检测方法
CN116055224B (zh) 基于时空超图卷积的加密应用程序行为流量检测方法
CN117318980A (zh) 一种面向小样本场景的自监督学习恶意流量检测方法
CN113746707B (zh) 一种基于分类器及网络结构的加密流量分类方法
CN114817925B (zh) 基于多模态图特征的安卓恶意软件检测方法及系统
CN115473748A (zh) 基于BiLSTM-ELM的DDoS攻击分类检测方法、装置及设备
CN110912906B (zh) 一种边缘计算恶意节点识别方法
Zhao et al. Realization of intrusion detection system based on the improved data mining technology
Le et al. An adaptive classification and updating method for unknown network traffic in open environments
CN111125699B (zh) 基于深度学习的恶意程序可视化检测方法
CN113901448B (zh) 基于卷积神经网络和轻量级梯度提升机的入侵检测方法
CN116582340A (zh) 一种基于边特征提取的循环图神经网络的入侵检测模型
CN118051806A (zh) 一种多时空特征融合增强的网络流量分类模型及其方法
Ghadekar et al. Cyber Intrusion Detection Using a Boosting Ensemble of Neural Networks Check for updates

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant