CN111866882B

CN111866882B - 一种基于生成对抗网络的移动应用流量生成方法

Info

Publication number: CN111866882B
Application number: CN201911305255.8A
Authority: CN
Inventors: 俞研; 石园; 张晗; 邓芳伟; 苏铓
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2019-12-17
Filing date: 2019-12-17
Publication date: 2023-03-31
Anticipated expiration: 2039-12-17
Also published as: CN111866882A

Abstract

本发明公开了一种基于生成对抗网络的移动应用流量生成方法，下载移动应用，根据移动应用程序的活动跳转原理，定义执行路径合集，获取执行移动应用时产生的网络数据，构建初始流量数据集；过滤初始流量数据集中HTTPS网络流量；对过滤后的数据集提取离散型和连续型特征，进行数据格式统一；构建生成对抗网络模型；利用ADAM优化器训练生成对抗网络，用于后续网络流量生成；训练完成之后，固定网络模型参数，输入噪声数据，生成网络流量数据。本发明降低了流量生成人工成本，增加了生成流量的网络行为多样性，更具有代表性。

Description

一种基于生成对抗网络的移动应用流量生成方法

技术领域

本发明属于移动终端安全技术，特别是一种基于生成对抗网络的移动应用流量生成方法。

背景技术

移动应用程序因为其承载着大量的网络业务而涉及到很多用户隐私信息，包括位置信息、用户密码等，存在遭受到大量恶意攻击的风险。但是网络入侵检测系统因为训练数据难以收集或者训练样本太少等问题，往往并没有很好的攻击检测效果。因此，亟需设计一种移动应用流量生成方法来生成可靠且全面的网络流量，提升网络入侵检测系统的性能，以保证用户的数据安全。

传统的流量生成方法主要是依靠人工运行应用程序手动生成流量数据，但是随着应用程序数量爆炸性增加，利用这种方式生成网络流量需要大量人力而不具有实践性。还有研究人员提出使用随机测试来执行应用程序，但是随机测试只能触发部分网络行为，因而这种方法无法模拟现实情况中多样化的网络行为，生成的网络流量也无法代表真实的移动应用程序网络流量。此外，还有一些专注于合成流量生成器的研究，但是这些工作都集中在容量规划、带宽测量等工作领域中，因此也无法解决网络入侵检测系统的流量数据需求问题。

发明内容

本发明的目的在于提供了一种基于生成对抗网络的移动应用流量生成方法，解决了现有的数据生成方法无法生成大量网络流量或生成的流量无法模拟多样化的网络行为等问题。

实现本发明目的的技术解决方案为：一种基于生成对抗网络的移动应用流量生成方法，包括如下步骤：

步骤1、下载移动应用，根据应用程序的活动跳转原理，定义执行路径合集，获取执行移动应用时产生的网络数据，构建初始流量数据集；

步骤2、过滤初始流量数据集中HTTPS网络流量；

步骤3、对过滤后的数据集提取离散型和连续型特征，进行数据格式统一；

步骤4、构建生成对抗网络模型；

步骤5、利用ADAM优化器训练生成对抗网络，用于后续网络流量生成；

步骤6、训练完成之后，固定网络模型参数，输入噪声数据，生成网络流量数据。

本发明与现有技术相比，其显著优点在于：1)自动执行移动应用，降低了流量生成人工成本；2)定义活动全覆盖的执行路径，增加了生成流量的网络行为多样性，更具有代表性。

附图说明

图1为本发明基于生成对抗网络的移动应用流量生成方法的流程图。

图2为本发明构建的执行路径示意图；其中(a)是凤凰新闻APP的一个查看新闻行为的活动跳转示意图，(b)为(a)的抽象活动跳转图。

具体实施方式

如图1所示，基于生成对抗网络的移动应用流量生成方法，步骤如下：

步骤1、下载移动应用，根据应用程序的活动跳转原理，定义执行路径合集，获取执行移动应用时产生的网络数据，构建初始流量数据集。

实验数据需要遵循基本的事实基础，所以步骤1基于真实移动应用程序生成初始实验数据，而不是模拟应用程序流量。步骤1包含以下子步骤：

步骤1-1：在豌豆荚和手机应用商店中，按照应用程序功能分类，分别下载影音播放、通讯社交、新闻阅读、摄影图像、旅行交通、时尚购物、居家生活和实用工具这8个类别中下载量前10的热门应用，总共80个应用程序；

步骤1-2：基于程序的活动跳转原理，遍历一个程序中所有的活动，设定为程序的执行路径。对步骤1-1中的所有应用程序均执行此操作，则得到程序执行路径合集。图2说明了一个程序中的一条执行路径的具体定义，(a)以凤凰新闻APP为例，从左到右为程序主活动界面，点击头条按钮跳转到头条新闻活动界面，最后为点击具体新闻跳转至新闻活动界面。图2(b)将(a)中的活动跳转转化为执行路径。

步骤1-3：使用MonkeyRunner按照执行路径合集自动化执行应用程序，触发网络活动，产生网络流量。

步骤1-4：在路由器上收集应用程序流量，构建初始流量数据集。

步骤2、对初始流量数据集进行过滤。

步骤2-1：利用Fiddler对初始流量数据集中的所有数据包进行解析，生成 HTTP或HTTPS协议格式的报文导出到本地；

步骤2-2：根据解析的协议字段进行数据包过滤，去除HTTPS协议数据包，只留下HTTP协议数据包。

步骤3、对过滤后的数据集提取离散型和连续型特征，进行数据格式统一，不同的特征处理方式不同。

步骤3-1：获取数据集中每一个数据包的离散型特征，包括Accept，Accept-Charset，Accept-Encoding，Cache-Control，Connection， Content-TypeContent-Encoding，统计每个特征的取值空间，进行独热编码。

独热编码即One-Hot编码，又称一位有效编码，其方法是使用N位状态寄存器来对N个状态进行编码，每个状态都有它独立的寄存器位，并且在任意时候，其中只有一位有效。例如对六个状态进行编码：

自然顺序码为000，001，010，011，100，101。

独热编码则是000001，000010，000100，001000，010000，100000。

步骤3-2：获取数据集中每一个数据包的连续型特征，包括Accept-Ranges，Content-Length，Date，Expires，统计每个特征的取值空间，按照式(1)进行归一化：

式(1)中，

为第i个连续型特征的第j个取值进行归一化之后的特征值，V_i(j)为第i个连续型特征的第j个取值，V_imax和V_imin分别是第i个连续型特征的最大值和最小值。

通过上述处理，数据集中的数据包都统一成数字型数据，可以直接输入模型进行训练。

步骤4、构建生成对抗网络模型。

生成对抗网络由生成器和判别器组成。生成器由5个残差网络、1个卷积层和一个激活函数组成。激活函数选用的是softmax。判别器由一个卷积层和5个残差网络组成。BATCH_SIZE为64，TRAFFIC_LEN为128。

步骤5、训练生成对抗网络，用于后续网络流量生成。

将步骤3获得的训练集按照80％、20％分成训练集和验证集。使用随机函数生成噪声数据作为生成器的输入。训练集和生成器的输出作为判别器的输入。训练时使用带权重惩罚的Wassertein距离损失函数。损失函数优化器选择的是ADAM优化器，其中学习率设置为0.001，一阶距估计的指数衰减率设置为0.9，二阶距估计的指数衰减率设置为0.999。生成器和判别器的参数更新规则为：生成器参数每更新1次，判别器参数更新10次。迭代次数为10000次。

步骤6、利用训练完成的模型进行流量生成。

训练完成之后，固定网络模型参数，输入噪声数据，生成网络流量数据。

本发明的基于生成对抗网络的移动应用流量生成方法，通过MonkeyRunner 执行预定义活动全覆盖的执行路径合集，获取网络流量数据集，并通过数据格式统一化方法，将网络流量数据转化为统一的数字型数据，输入生成对抗模型进行训练，最终能够生成多样化的移动应用流量。

Claims

1.一种基于生成对抗网络的移动应用流量生成方法，其特征在于，包括以下步骤：

步骤1、下载移动应用，根据移动应用程序的活动跳转原理，定义执行路径合集，获取执行移动应用时产生的网络数据，构建初始流量数据集；

步骤2、过滤初始流量数据集中HTTPS网络流量；

步骤4、构建生成对抗网络模型；

步骤6、训练完成之后，固定网络模型参数，输入噪声数据，生成网络流量数；

步骤3中，对于离散型特征的处理方式具体为：获取数据集中每一个数据包的离散型特征，包括Accept，Accept-Charset，Accept-Encoding，Cache-Control，Connection，Content-TypeContent-Encoding，统计每个特征的取值空间，进行独热编码；

对于连续型特征的处理方式具体为：获取数据集中每一个数据包的连续型特征，包括Accept-Ranges，Content-Length，Date，Expires，统计每个特征的取值空间，按照式(1)进行归一化：

式(1)中，

为第i个连续型特征的第j个取值进行归一化之后的特征值，V_i(j)为第i个连续型特征的第j个取值，V_imax和V_imin分别是第i个连续型特征的最大值和最小值；

步骤4中，构建的生成对抗网络模型具体包括：生成器和判别器，其中生成器由5个残差网络、1个卷积层和一个激活函数组成，激活函数选用的是softmax，判别器由一个卷积层和5个残差网络组成；

步骤5中，模型训练方法具体为：将获得的训练集分成训练集和验证集，使用随机函数生成噪声数据作为生成器的输入，训练集和生成器的输出作为判别器的输入，使用带权重惩罚的Wassertein距离损失函数，进行模型训练。

2.根据权利要求1所述的基于生成对抗网络的移动应用流量生成方法，其特征在于，步骤1中，下载移动应用的具体方法：在豌豆荚和手机应用商店中，按照应用程序功能分类，分别下载影音播放、通讯社交、新闻阅读、摄影图像、旅行交通、时尚购物、居家生活和实用工具这8个类别中下载量前10的热门应用，总共80个应用程序。

3.根据权利要求1所述的基于生成对抗网络的移动应用流量生成方法，其特征在于，步骤1中，定义执行路径合集的具体方法为：基于程序的活动跳转原理，遍历一个程序中所有的活动，设定为程序的执行路径。

4.根据权利要求1所述的基于生成对抗网络的移动应用流量生成方法，其特征在于，步骤1中，移动应用的执行方法具体为：使用MonkeyRunner按照执行路径合集自动化执行应用程序，触发网络活动，产生网络流量。

5.根据权利要求1所述的基于生成对抗网络的移动应用流量生成方法，其特征在于，步骤1中，收集网络流量的具体方法为：在路由器上收集应用程序流量，构建初始流量数据集。

6.根据权利要求1所述的基于生成对抗网络的移动应用流量生成方法，其特征在于，步骤2中，针对初始数据过滤包含以下两个步骤：

步骤2-1：利用Fiddler对初始流量数据集中的所有数据包进行解析，生成HTTP或HTTPS协议格式的报文导出到本地；