CN111866882B - 一种基于生成对抗网络的移动应用流量生成方法 - Google Patents

一种基于生成对抗网络的移动应用流量生成方法 Download PDF

Info

Publication number
CN111866882B
CN111866882B CN201911305255.8A CN201911305255A CN111866882B CN 111866882 B CN111866882 B CN 111866882B CN 201911305255 A CN201911305255 A CN 201911305255A CN 111866882 B CN111866882 B CN 111866882B
Authority
CN
China
Prior art keywords
network
mobile application
traffic
data
generating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911305255.8A
Other languages
English (en)
Other versions
CN111866882A (zh
Inventor
俞研
石园
张晗
邓芳伟
苏铓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN201911305255.8A priority Critical patent/CN111866882B/zh
Publication of CN111866882A publication Critical patent/CN111866882A/zh
Application granted granted Critical
Publication of CN111866882B publication Critical patent/CN111866882B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/06Testing, supervising or monitoring using simulated traffic

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于生成对抗网络的移动应用流量生成方法,下载移动应用,根据移动应用程序的活动跳转原理,定义执行路径合集,获取执行移动应用时产生的网络数据,构建初始流量数据集;过滤初始流量数据集中HTTPS网络流量;对过滤后的数据集提取离散型和连续型特征,进行数据格式统一;构建生成对抗网络模型;利用ADAM优化器训练生成对抗网络,用于后续网络流量生成;训练完成之后,固定网络模型参数,输入噪声数据,生成网络流量数据。本发明降低了流量生成人工成本,增加了生成流量的网络行为多样性,更具有代表性。

Description

一种基于生成对抗网络的移动应用流量生成方法
技术领域
本发明属于移动终端安全技术,特别是一种基于生成对抗网络的移动应用流量生成方法。
背景技术
移动应用程序因为其承载着大量的网络业务而涉及到很多用户隐私信息,包括位置信息、用户密码等,存在遭受到大量恶意攻击的风险。但是网络入侵检测系统因为训练数据难以收集或者训练样本太少等问题,往往并没有很好的攻击检测效果。因此,亟需设计一种移动应用流量生成方法来生成可靠且全面的网络流量,提升网络入侵检测系统的性能,以保证用户的数据安全。
传统的流量生成方法主要是依靠人工运行应用程序手动生成流量数据,但是随着应用程序数量爆炸性增加,利用这种方式生成网络流量需要大量人力而不具有实践性。还有研究人员提出使用随机测试来执行应用程序,但是随机测试只能触发部分网络行为,因而这种方法无法模拟现实情况中多样化的网络行为,生成的网络流量也无法代表真实的移动应用程序网络流量。此外,还有一些专注于合成流量生成器的研究,但是这些工作都集中在容量规划、带宽测量等工作领域中,因此也无法解决网络入侵检测系统的流量数据需求问题。
发明内容
本发明的目的在于提供了一种基于生成对抗网络的移动应用流量生成方法,解决了现有的数据生成方法无法生成大量网络流量或生成的流量无法模拟多样化的网络行为等问题。
实现本发明目的的技术解决方案为:一种基于生成对抗网络的移动应用流量生成方法,包括如下步骤:
步骤1、下载移动应用,根据应用程序的活动跳转原理,定义执行路径合集,获取执行移动应用时产生的网络数据,构建初始流量数据集;
步骤2、过滤初始流量数据集中HTTPS网络流量;
步骤3、对过滤后的数据集提取离散型和连续型特征,进行数据格式统一;
步骤4、构建生成对抗网络模型;
步骤5、利用ADAM优化器训练生成对抗网络,用于后续网络流量生成;
步骤6、训练完成之后,固定网络模型参数,输入噪声数据,生成网络流量数据。
本发明与现有技术相比,其显著优点在于:1)自动执行移动应用,降低了流量生成人工成本;2)定义活动全覆盖的执行路径,增加了生成流量的网络行为多样性,更具有代表性。
附图说明
图1为本发明基于生成对抗网络的移动应用流量生成方法的流程图。
图2为本发明构建的执行路径示意图;其中(a)是凤凰新闻APP的一个查看新闻行为的活动跳转示意图,(b)为(a)的抽象活动跳转图。
具体实施方式
如图1所示,基于生成对抗网络的移动应用流量生成方法,步骤如下:
步骤1、下载移动应用,根据应用程序的活动跳转原理,定义执行路径合集,获取执行移动应用时产生的网络数据,构建初始流量数据集。
实验数据需要遵循基本的事实基础,所以步骤1基于真实移动应用程序生成初始实验数据,而不是模拟应用程序流量。步骤1包含以下子步骤:
步骤1-1:在豌豆荚和手机应用商店中,按照应用程序功能分类,分别下载影音播放、通讯社交、新闻阅读、摄影图像、旅行交通、时尚购物、居家生活和实用工具这8个类别中下载量前10的热门应用,总共80个应用程序;
步骤1-2:基于程序的活动跳转原理,遍历一个程序中所有的活动,设定为程序的执行路径。对步骤1-1中的所有应用程序均执行此操作,则得到程序执行路径合集。图2说明了一个程序中的一条执行路径的具体定义,(a)以凤凰新闻APP为例,从左到右为程序主活动界面,点击头条按钮跳转到头条新闻活动界面,最后为点击具体新闻跳转至新闻活动界面。图2(b)将(a)中的活动跳转转化为执行路径。
步骤1-3:使用MonkeyRunner按照执行路径合集自动化执行应用程序,触发网络活动,产生网络流量。
步骤1-4:在路由器上收集应用程序流量,构建初始流量数据集。
步骤2、对初始流量数据集进行过滤。
步骤2-1:利用Fiddler对初始流量数据集中的所有数据包进行解析,生成 HTTP或HTTPS协议格式的报文导出到本地;
步骤2-2:根据解析的协议字段进行数据包过滤,去除HTTPS协议数据包,只留下HTTP协议数据包。
步骤3、对过滤后的数据集提取离散型和连续型特征,进行数据格式统一,不同的特征处理方式不同。
步骤3-1:获取数据集中每一个数据包的离散型特征,包括Accept,Accept-Charset,Accept-Encoding,Cache-Control,Connection, Content-TypeContent-Encoding,统计每个特征的取值空间,进行独热编码。
独热编码即One-Hot编码,又称一位有效编码,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候,其中只有一位有效。例如对六个状态进行编码:
自然顺序码为000,001,010,011,100,101。
独热编码则是000001,000010,000100,001000,010000,100000。
步骤3-2:获取数据集中每一个数据包的连续型特征,包括Accept-Ranges,Content-Length,Date,Expires,统计每个特征的取值空间,按照式(1)进行归一化:
Figure BDA0002322902720000031
式(1)中,
Figure BDA0002322902720000032
为第i个连续型特征的第j个取值进行归一化之后的特征值,Vi(j)为第i个连续型特征的第j个取值,Vimax和Vimin分别是第i个连续型特征的最大值和最小值。
通过上述处理,数据集中的数据包都统一成数字型数据,可以直接输入模型进行训练。
步骤4、构建生成对抗网络模型。
生成对抗网络由生成器和判别器组成。生成器由5个残差网络、1个卷积层和一个激活函数组成。激活函数选用的是softmax。判别器由一个卷积层和5个残差网络组成。BATCH_SIZE为64,TRAFFIC_LEN为128。
步骤5、训练生成对抗网络,用于后续网络流量生成。
将步骤3获得的训练集按照80%、20%分成训练集和验证集。使用随机函数生成噪声数据作为生成器的输入。训练集和生成器的输出作为判别器的输入。训练时使用带权重惩罚的Wassertein距离损失函数。损失函数优化器选择的是ADAM优化器,其中学习率设置为0.001,一阶距估计的指数衰减率设置为0.9,二阶距估计的指数衰减率设置为0.999。生成器和判别器的参数更新规则为:生成器参数每更新1次,判别器参数更新10次。迭代次数为10000次。
步骤6、利用训练完成的模型进行流量生成。
训练完成之后,固定网络模型参数,输入噪声数据,生成网络流量数据。
本发明的基于生成对抗网络的移动应用流量生成方法,通过MonkeyRunner 执行预定义活动全覆盖的执行路径合集,获取网络流量数据集,并通过数据格式统一化方法,将网络流量数据转化为统一的数字型数据,输入生成对抗模型进行训练,最终能够生成多样化的移动应用流量。

Claims (6)

1.一种基于生成对抗网络的移动应用流量生成方法,其特征在于,包括以下步骤:
步骤1、下载移动应用,根据移动应用程序的活动跳转原理,定义执行路径合集,获取执行移动应用时产生的网络数据,构建初始流量数据集;
步骤2、过滤初始流量数据集中HTTPS网络流量;
步骤3、对过滤后的数据集提取离散型和连续型特征,进行数据格式统一;
步骤4、构建生成对抗网络模型;
步骤5、利用ADAM优化器训练生成对抗网络,用于后续网络流量生成;
步骤6、训练完成之后,固定网络模型参数,输入噪声数据,生成网络流量数;
步骤3中,对于离散型特征的处理方式具体为:获取数据集中每一个数据包的离散型特征,包括Accept,Accept-Charset,Accept-Encoding,Cache-Control,Connection,Content-TypeContent-Encoding,统计每个特征的取值空间,进行独热编码;
对于连续型特征的处理方式具体为:获取数据集中每一个数据包的连续型特征,包括Accept-Ranges,Content-Length,Date,Expires,统计每个特征的取值空间,按照式(1)进行归一化:
Figure FDA0003876874780000011
式(1)中,
Figure FDA0003876874780000012
为第i个连续型特征的第j个取值进行归一化之后的特征值,Vi(j)为第i个连续型特征的第j个取值,Vimax和Vimin分别是第i个连续型特征的最大值和最小值;
步骤4中,构建的生成对抗网络模型具体包括:生成器和判别器,其中生成器由5个残差网络、1个卷积层和一个激活函数组成,激活函数选用的是softmax,判别器由一个卷积层和5个残差网络组成;
步骤5中,模型训练方法具体为:将获得的训练集分成训练集和验证集,使用随机函数生成噪声数据作为生成器的输入,训练集和生成器的输出作为判别器的输入,使用带权重惩罚的Wassertein距离损失函数,进行模型训练。
2.根据权利要求1所述的基于生成对抗网络的移动应用流量生成方法,其特征在于,步骤1中,下载移动应用的具体方法:在豌豆荚和手机应用商店中,按照应用程序功能分类,分别下载影音播放、通讯社交、新闻阅读、摄影图像、旅行交通、时尚购物、居家生活和实用工具这8个类别中下载量前10的热门应用,总共80个应用程序。
3.根据权利要求1所述的基于生成对抗网络的移动应用流量生成方法,其特征在于,步骤1中,定义执行路径合集的具体方法为:基于程序的活动跳转原理,遍历一个程序中所有的活动,设定为程序的执行路径。
4.根据权利要求1所述的基于生成对抗网络的移动应用流量生成方法,其特征在于,步骤1中,移动应用的执行方法具体为:使用MonkeyRunner按照执行路径合集自动化执行应用程序,触发网络活动,产生网络流量。
5.根据权利要求1所述的基于生成对抗网络的移动应用流量生成方法,其特征在于,步骤1中,收集网络流量的具体方法为:在路由器上收集应用程序流量,构建初始流量数据集。
6.根据权利要求1所述的基于生成对抗网络的移动应用流量生成方法,其特征在于,步骤2中,针对初始数据过滤包含以下两个步骤:
步骤2-1:利用Fiddler对初始流量数据集中的所有数据包进行解析,生成HTTP或HTTPS协议格式的报文导出到本地;
步骤2-2:根据解析的协议字段进行数据包过滤,去除HTTPS协议数据包,只留下HTTP协议数据包。
CN201911305255.8A 2019-12-17 2019-12-17 一种基于生成对抗网络的移动应用流量生成方法 Active CN111866882B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911305255.8A CN111866882B (zh) 2019-12-17 2019-12-17 一种基于生成对抗网络的移动应用流量生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911305255.8A CN111866882B (zh) 2019-12-17 2019-12-17 一种基于生成对抗网络的移动应用流量生成方法

Publications (2)

Publication Number Publication Date
CN111866882A CN111866882A (zh) 2020-10-30
CN111866882B true CN111866882B (zh) 2023-03-31

Family

ID=72970922

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911305255.8A Active CN111866882B (zh) 2019-12-17 2019-12-17 一种基于生成对抗网络的移动应用流量生成方法

Country Status (1)

Country Link
CN (1) CN111866882B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112580708B (zh) * 2020-12-10 2024-03-05 上海阅维科技股份有限公司 从应用程序生成的加密流量中识别上网行为的方法
CN113283476B (zh) * 2021-04-27 2023-10-10 广东工业大学 一种物联网网络入侵检测方法
CN113726545B (zh) * 2021-06-23 2022-12-23 清华大学 基于知识增强生成对抗网络的网络流量生成方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109614471B (zh) * 2018-12-07 2021-07-02 北京大学 一种基于生成式对抗网络的开放式问题自动生成方法
CN110012019A (zh) * 2019-04-11 2019-07-12 鸿秦(北京)科技有限公司 一种基于对抗模型的网络入侵检测方法及装置
CN110460600B (zh) * 2019-08-13 2021-09-03 南京理工大学 可抵御生成对抗网络攻击的联合深度学习方法
CN110535874A (zh) * 2019-09-17 2019-12-03 武汉思普崚技术有限公司 一种对抗性网络的网络攻击检测方法及系统

Also Published As

Publication number Publication date
CN111866882A (zh) 2020-10-30

Similar Documents

Publication Publication Date Title
CN111866882B (zh) 一种基于生成对抗网络的移动应用流量生成方法
CN111092852B (zh) 基于大数据的网络安全监控方法、装置、设备及存储介质
EP2832040B1 (en) System and method for root cause analysis of mobile network performance problems
Fiadino et al. Steps towards the extraction of vehicular mobility patterns from 3G signaling data
US20210021616A1 (en) Method and system for classifying data objects based on their network footprint
CN107391746A (zh) 日志分析方法、设备和计算机可读存储介质
CN110417607B (zh) 一种流量预测方法、装置及设备
CN102685717B (zh) 网络业务质量参数识别方法及装置
CN111294819B (zh) 一种网络优化方法及装置
CN114221790A (zh) 一种基于图注意力网络的bgp异常检测方法及系统
CN102711162A (zh) 一种移动互联网中网络质量监测和用户体验优化的方法
US20210281566A1 (en) Systems And Methods For Device Fingerprinting
CN114422211B (zh) 基于图注意力网络的http恶意流量检测方法及装置
Kong et al. When Compressive Sensing Meets Mobile Crowdsensing
CN115567269A (zh) 基于联邦学习与深度学习的物联网异常检测方法及系统
CN113938290B (zh) 一种用户侧流量数据分析的网站去匿名方法和系统
CN110866049A (zh) 目标对象类别的确认方法及装置、存储介质、电子装置
CN114510615A (zh) 一种基于图注意力池化网络的细粒度加密网站指纹分类方法和装置
CN111159250B (zh) 基于嵌套式深度孪生神经网络的移动端用户行为检测方法
CN111049838B (zh) 黑产设备识别方法、装置、服务器及存储介质
CN111310796B (zh) 一种面向加密网络流的Web用户点击识别方法
CN110855474B (zh) Kqi数据的网络特征提取方法、装置、设备及存储介质
CN116707902A (zh) 一种基于决策树的LoRaWAN网络攻击检测方法
Liu et al. Complexity measures for IoT network traffic
CN111935766B (zh) 一种基于全局空间依赖性的无线网络流量预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant