CN112559832B - 对加密通道中传输的二次加密流量进行分类的方法 - Google Patents

对加密通道中传输的二次加密流量进行分类的方法 Download PDF

Info

Publication number
CN112559832B
CN112559832B CN202011453926.8A CN202011453926A CN112559832B CN 112559832 B CN112559832 B CN 112559832B CN 202011453926 A CN202011453926 A CN 202011453926A CN 112559832 B CN112559832 B CN 112559832B
Authority
CN
China
Prior art keywords
behavior
surfing
mobile terminal
internet surfing
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011453926.8A
Other languages
English (en)
Other versions
CN112559832A (zh
Inventor
顾东升
贺辉
郑宇宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Yuewei Science And Technology Co ltd
Original Assignee
Shanghai Yuewei Science And Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Yuewei Science And Technology Co ltd filed Critical Shanghai Yuewei Science And Technology Co ltd
Priority to CN202011453926.8A priority Critical patent/CN112559832B/zh
Publication of CN112559832A publication Critical patent/CN112559832A/zh
Application granted granted Critical
Publication of CN112559832B publication Critical patent/CN112559832B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Environmental & Geological Engineering (AREA)
  • Signal Processing (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

一种对加密通道中传输的二次加密流量进行分类的方法,涉及网络信息安全技术领域,该方法先采集正负样本,将样本数据中的加密载荷转换为rgb图像,利用rgb图像对深度神经网络骨干网络模型进行训练,再利用深度神经网络骨干网络模型对实时网络流量数据中的上网行为及其采用的上网程序组合进行识别。本发明提供的方法,能精准的实现对网络流量数据中的上网行为及其采用的上网程序组合的分类。

Description

对加密通道中传输的二次加密流量进行分类的方法
技术领域
本发明涉及物理领域,尤其涉及网络信息技术,特别是一种对加密通道中传输的二次加密流量进行分类的方法。
背景技术
随着个人移动终端的普及,种类繁多的移动互联网应用产生了大量的流量,而随着类似HTTPS类加密传输协议的广泛使用,这些移动互联网应用产生的加密流量载荷已很难被轻易攻破,而随着个人隐私意识的提升,更多的用户会选择VPN这样的加密管道访问互联网以隐藏自己的上网行为,这对网络安全产生负面影响。怎样从截取的二次加密流量中高效的辨别出用户的上网行为成为近年来的研究热点问题。
在网络流量分类的传统方法中,应用最广的是基于知名端口号的流量分类算法、基于特征字匹配的流量分类算法、基于传输层行为模式的流量分类算法。但随着端口伪造、明文加密、二次加密等技术的使用,上述几种分类方法在现阶段已经无法满足对分类的精度要求。
发明内容
针对上述现有技术中存在的缺陷,本发明所要解决的技术问题是提供一种分类精度较好的对加密通道中传输的二次加密流量进行分类的方法。
为了解决上述技术问题,本发明所提供的一种对加密通道中传输的二次加密流量进行分类的方法,其特征在于,具体步骤如下:
1)选取多种用于传输加密流量的加密通道程序及多种目标应用程序,并采集所选的加密通道程序及目标应用程序的网络流量数据样本,网络流量数据样本有正样本、负样本两类,其获取方法为:
统计用户在移动终端上操作各种目标应用程序时的各种上网行为,并为每一种上网行为设定一个行为标签,并从中选取几种上网行为定义为目标上网行为,并将剩下的其它上网行为定义为非目标上网行为;
统计每一种上网行为所采用的上网程序组合,每个上网程序组合都由一个目标应用程序及一个加密通道程序组成;
选取一台计算机作为群控主机,并在群控主机上安装用于操控所选的各种加密通道程序及目标应用程序的目标操控脚本,在移动终端上安装所选的各种加密通道程序及目标应用程序,并将群控主机及移动终端连接到同一个网络上,使得群控主机与移动终端能进行通信;
群控主机上的目标操控脚本下发指令来操控移动终端上的加密通道程序、目标应用程序模拟用户在移动终端上的各种目标上网行为,并采集移动终端在此过程中所产生的网络流量数据,并将所采集的网络流量数据作为正样本;
群控主机采用以下方式之一来采集负样本:
采集负样本的方式一,群控主机上的目标操控脚本下发指令来操控移动终端上的加密通道程序、目标应用程序模拟用户在移动终端上的各种非目标上网行为,并采集移动终端的在此过程中所产生的网络流量数据,并将所采集的网络流量数据作为负样本;
采集负样本的方式二,群控主机采集网络上防火墙的镜像流量数据,并将所采集的镜像流量数据作为负样本;
2)对所采集的网络流量数据进行预处理,预处理方式为:
先剔除掉网络流量数据中的明文数据,再从网络流量数据中按时序提取出各个上网行为所采用的加密通道程序所产生的的网络流量数据报文,再从提取的网络流量数据报文中提取出加密载荷,并将加密载荷中的报头信息替换为预先设定的填充信息,从而得到各个上网行为所采用的上网程序组合的提纯加密载荷;
3)为每个上网行为创建一个三维数组M[r,g,b],并以字节作为单位元素,将每个上网行为的提纯加密载荷中的各个字节依序填入该上网行为的三维数组,并将三维数组中的r元素、g元素、b元素的值分别作为红色色值、绿色色值、蓝色色值,利用该三维数组为该上网行为动作构建一个rgb图像;
4)将正样本、负样本中的各种上网行的行为标签及步骤3)构建的rgb图像,归入一个标签文件;
5)构建一个能从图片中提取隐藏特征的深度神经网络骨干网络模型;
6)将标签文件中的各个上网行为所对应的行为标签、rgb图像导入到深度神经网络骨干网络模型中进行训练,在训练结束后得到训练后的深度神经网络骨干网络模型;
7)利用训练后的深度神经网络骨干网络模型对移动终端所产生的实时网络流量数据进行识别,识别方法为:
群控主机采集移动终端所产生的实时网络流量数据,并将所采集的实时网络流量数据实施流量聚类,再对聚类后的实时网络流量数据,采用步骤2)至步骤3)的方法为实时网络流量数据中的每个上网行为动作构建一个rgb图像,并将每个上网行为动作所对应的rgb图像输入到深度神经网络骨干网络模型,利用深度神经网络骨干网络模型识别出每个rgb图像所对应的行为标签,并将rgb图像所对应的上网行为及其采用的上网程序组合,识别为所识别出的行为标签所代表的上网行为及其采用的上网程序组合。
本发明提供的对加密通道中传输的二次加密流量进行分类的方法,利用正负样本训练出高精度的深度神经网络骨干网络模型,再利用深度神经网络骨干网络模型对网络流量数据中的上网行为及其采用的上网程序组合进行识别,可以在不需要人工提取热门应用流量特征,也不需要解析流量的有效载荷内容的情况下,精准的识别出网络流量数据中的上网行为及其采用的上网程序组合。
具体实施方式
以下结合具体实施例对本发明的技术方案作进一步详细描述,但本实施例并不用于限制本发明,凡是采用本发明的相似结构及其相似变化,均应列入本发明的保护范围,本发明中的顿号均表示和的关系,本发明中的英文字母区分大小写。
本发明实施例所提供的一种对加密通道中传输的二次加密流量进行分类的方法,其特征在于,具体步骤如下:
1)选取多种用于传输加密流量的加密通道程序及多种目标应用程序,并采集所选的加密通道程序及目标应用程序的网络流量数据样本,网络流量数据样本有正样本、负样本两类,其获取方法为:
统计用户在移动终端上操作各种目标应用程序时的各种上网行为(上网行为包括点击目标应用程序的按钮、浏览目标应用程序的某些内容等),并为每一种上网行为设定一个行为标签,并从中选取几种上网行为定义为目标上网行为,并将剩下的其它上网行为定义为非目标上网行为;
统计每一种上网行为所采用的上网程序组合,每个上网程序组合都由一个目标应用程序及一个加密通道程序组成;
选取一台计算机作为群控主机,并在群控主机上安装用于操控所选的各种加密通道程序及目标应用程序的目标操控脚本,在移动终端上安装所选的各种加密通道程序及目标应用程序,并将群控主机及移动终端连接到同一个网络上,使得群控主机与移动终端能进行通信;
群控主机上的目标操控脚本下发指令来操控移动终端上的加密通道程序、目标应用程序模拟用户在移动终端上的各种目标上网行为,并采集移动终端在此过程中所产生的网络流量数据,并将所采集的网络流量数据作为正样本;
群控主机采用以下方式之一来采集负样本:
采集负样本的方式一,群控主机上的目标操控脚本下发指令来操控移动终端上的加密通道程序、目标应用程序模拟用户在移动终端上的各种非目标上网行为,并采集移动终端的在此过程中所产生的网络流量数据,并将所采集的网络流量数据作为负样本;
采集负样本的方式二,群控主机采集网络上防火墙的镜像流量数据,并将所采集的镜像流量数据作为负样本;
利用所采集的网络流量数据样本(正样本和负样本)构建一个具有样本标记的目录结构,将网络流量数据样本中的各种上网行为所采用的上网程序组合按采集时序存入该目录结构中;
2)对所采集的网络流量数据进行预处理,预处理方式为:
先剔除掉网络流量数据中的明文数据,再从网络流量数据中按时序提取出各个上网行为所采用的加密通道程序所产生的的网络流量数据报文,再从提取的网络流量数据报文中提取出加密载荷,并将加密载荷中的报头信息替换为预先设定的填充信息,从而得到各个上网行为所采用的上网程序组合的提纯加密载荷;
3)为每个上网行为创建一个三维数组M[r,g,b],并以字节作为单位元素,将每个上网行为的提纯加密载荷中的各个字节依序填入该上网行为的三维数组,并将三维数组中的r元素、g元素、b元素的值分别作为红色色值、绿色色值、蓝色色值,利用该三维数组为该上网行为动作构建一个rgb图像;
4)将正样本、负样本中的各种上网行的行为标签及步骤3)构建的rgb图像,归入一个标签文件;
5)构建一个能从图片中提取隐藏特征的深度神经网络骨干网络模型;
构建深度神经网络骨干网络模型的方法为现有技术,在很多文献中都有记载,本实施例不再赘述,本实施例采用的深度神经网络骨干网络模型为ResNet53模型;
6)将标签文件中的各个上网行为所对应的行为标签、rgb图像导入到深度神经网络骨干网络模型中进行训练,在训练结束后得到训练后的深度神经网络骨干网络模型;
利用深度神经网络骨干网络模型对数据进行训练的方法为现有技术,在很多文献中都有记载,本实施例不再赘述;
7)利用训练后的深度神经网络骨干网络模型对移动终端所产生的实时网络流量数据进行识别,识别方法为:
群控主机采集移动终端所产生的实时网络流量数据,并将所采集的实时网络流量数据实施流量聚类,再对聚类后的实时网络流量数据,采用步骤2)至步骤3)的方法为实时网络流量数据中的每个上网行为动作构建一个rgb图像,并将每个上网行为动作所对应的rgb图像输入到深度神经网络骨干网络模型,利用深度神经网络骨干网络模型识别出每个rgb图像所对应的行为标签,并将rgb图像所对应的上网行为及其采用的上网程序组合,识别为所识别出的行为标签所代表的上网行为及其采用的上网程序组合,从而实现对上网行为及其采用的上网程序组合的分类。
对流量数据实施流量聚类的方法为现有技术,在很多文献中都有记载,本实施例不再赘述。

Claims (1)

1.一种对加密通道中传输的二次加密流量进行分类的方法,其特征在于,具体步骤如下:
1)选取多种用于传输加密流量的加密通道程序及多种目标应用程序,并采集所选的加密通道程序及目标应用程序的网络流量数据样本,所述的网络流量数据样本包括正样本、负样本两类,其获取方法为:
统计用户在移动终端上操作各种目标应用程序时的各种上网行为,并为每一种上网行为设定一个行为标签,并从中选取几种上网行为定义为目标上网行为,并将剩下的其它上网行为定义为非目标上网行为;
统计每一种上网行为所采用的上网程序组合,每个上网程序组合都由一个目标应用程序及一个加密通道程序组成;
选取一台计算机作为群控主机,并在群控主机上安装用于操控所选的各种加密通道程序及目标应用程序的目标操控脚本,在移动终端上安装所选的各种加密通道程序及目标应用程序,并将群控主机及移动终端连接到同一个网络上,使得群控主机与移动终端能进行通信;
群控主机上的目标操控脚本下发指令来操控移动终端上的加密通道程序、目标应用程序模拟用户在移动终端上的各种目标上网行为,并采集移动终端在此过程中所产生的网络流量数据,并将所采集的网络流量数据作为正样本;
群控主机采用以下方式之一来采集负样本:
采集负样本的方式一,群控主机上的目标操控脚本下发指令来操控移动终端上的加密通道程序、目标应用程序模拟用户在移动终端上的各种非目标上网行为,并采集移动终端的在此过程中所产生的网络流量数据,并将所采集的网络流量数据作为负样本;
采集负样本的方式二,群控主机采集网络上防火墙的镜像流量数据,并将所采集的镜像流量数据作为负样本;
2)对所采集的网络流量数据进行预处理,预处理方式为:
先剔除掉网络流量数据中的明文数据,再从网络流量数据中按时序提取出各个上网行为所采用的加密通道程序所产生的网络流量数据报文,再从提取的网络流量数据报文中提取出加密载荷,并将加密载荷中的报头信息替换为预先设定的填充信息,从而得到各个上网行为所采用的上网程序组合的提纯加密载荷;
3)为每个上网行为创建一个三维数组M[r,g,b],并以字节作为单位元素,将每个上网行为的提纯加密载荷中的各个字节依序填入该上网行为的三维数组,并将三维数组中的r元素、g元素、b元素的值分别作为红色色值、绿色色值、蓝色色值,利用该三维数组为该上网行为动作构建一个rgb图像;
4)将正样本、负样本中的各种上网行的行为标签及步骤3)构建的rgb图像,归入一个标签文件;
5)构建一个能从图片中提取隐藏特征的深度神经网络骨干网络模型;
6)将标签文件中的各个上网行为所对应的行为标签、rgb图像导入到深度神经网络骨干网络模型中进行训练,在训练结束后得到训练后的深度神经网络骨干网络模型;
7)利用训练后的深度神经网络骨干网络模型对移动终端所产生的实时网络流量数据进行识别,识别方法为:
群控主机采集移动终端所产生的实时网络流量数据,并将所采集的实时网络流量数据实施流量聚类,再对聚类后的实时网络流量数据,采用步骤2)至步骤3)的方法为实时网络流量数据中的每个上网行为动作构建一个rgb图像,并将每个上网行为动作所对应的rgb图像输入到深度神经网络骨干网络模型,利用深度神经网络骨干网络模型识别出每个rgb图像所对应的行为标签,并将rgb图像所对应的上网行为及其采用的上网程序组合,识别为所识别出的行为标签所代表的上网行为及其采用的上网程序组合。
CN202011453926.8A 2020-12-10 2020-12-10 对加密通道中传输的二次加密流量进行分类的方法 Active CN112559832B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011453926.8A CN112559832B (zh) 2020-12-10 2020-12-10 对加密通道中传输的二次加密流量进行分类的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011453926.8A CN112559832B (zh) 2020-12-10 2020-12-10 对加密通道中传输的二次加密流量进行分类的方法

Publications (2)

Publication Number Publication Date
CN112559832A CN112559832A (zh) 2021-03-26
CN112559832B true CN112559832B (zh) 2023-08-04

Family

ID=75061241

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011453926.8A Active CN112559832B (zh) 2020-12-10 2020-12-10 对加密通道中传输的二次加密流量进行分类的方法

Country Status (1)

Country Link
CN (1) CN112559832B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112580708B (zh) * 2020-12-10 2024-03-05 上海阅维科技股份有限公司 从应用程序生成的加密流量中识别上网行为的方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004126484A (ja) * 2002-10-01 2004-04-22 Chaos Sangyo Gijutsu Kenkyusho:Kk 画像データの圧縮暗号化の方法
CN104144343A (zh) * 2014-07-11 2014-11-12 东北大学 一种数字图像压缩加密联合编码方法
CN110012029A (zh) * 2019-04-22 2019-07-12 中国科学院声学研究所 一种区分加密和非加密压缩流量的方法和系统
US10505726B1 (en) * 2018-12-07 2019-12-10 Nike, Inc. System and method for providing cryptographically secured digital assets
CN110704649A (zh) * 2019-08-29 2020-01-17 南京邮电大学 一种用于构建流量图像数据集的方法及系统
CN111191767A (zh) * 2019-12-17 2020-05-22 博雅信安科技(北京)有限公司 一种基于向量化的恶意流量攻击类型的判断方法
CN111447151A (zh) * 2019-10-30 2020-07-24 长沙理工大学 一种基于注意力机制的时空特征流量分类研究方法
CN111866024A (zh) * 2020-08-05 2020-10-30 国家计算机网络与信息安全管理中心 一种网络加密流量识别方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100008338A1 (en) * 2008-07-14 2010-01-14 Texas Instruments Incorporated High transmission power using shared bluetooth and wireless local area network front end module

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004126484A (ja) * 2002-10-01 2004-04-22 Chaos Sangyo Gijutsu Kenkyusho:Kk 画像データの圧縮暗号化の方法
CN104144343A (zh) * 2014-07-11 2014-11-12 东北大学 一种数字图像压缩加密联合编码方法
US10505726B1 (en) * 2018-12-07 2019-12-10 Nike, Inc. System and method for providing cryptographically secured digital assets
CN110012029A (zh) * 2019-04-22 2019-07-12 中国科学院声学研究所 一种区分加密和非加密压缩流量的方法和系统
CN110704649A (zh) * 2019-08-29 2020-01-17 南京邮电大学 一种用于构建流量图像数据集的方法及系统
CN111447151A (zh) * 2019-10-30 2020-07-24 长沙理工大学 一种基于注意力机制的时空特征流量分类研究方法
CN111191767A (zh) * 2019-12-17 2020-05-22 博雅信安科技(北京)有限公司 一种基于向量化的恶意流量攻击类型的判断方法
CN111866024A (zh) * 2020-08-05 2020-10-30 国家计算机网络与信息安全管理中心 一种网络加密流量识别方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
flowpic:encrypted internet traffic classification is as easy as image recognition;Tal Shapira等;IEEE INFOCOM 2019 IEEE conference on computer communications workshops;1-20 *

Also Published As

Publication number Publication date
CN112559832A (zh) 2021-03-26

Similar Documents

Publication Publication Date Title
CN110391958B (zh) 一种对网络加密流量自动进行特征提取和识别的方法
CN110247930B (zh) 一种基于深度神经网络的加密网络流量识别方法
CN102193620B (zh) 一种基于表情识别的输入方法
CN110796196A (zh) 一种基于深度判别特征的网络流量分类系统及方法
CN109861957A (zh) 一种移动应用私有加密协议的用户行为精细化分类方法及系统
CN105095882A (zh) 手势识别的识别方法和装置
CN107483451B (zh) 基于串并行结构网络安全数据处理方法及系统、社交网络
CN114419363A (zh) 基于无标注样本数据的目标分类模型训练方法及装置
CN112559832B (zh) 对加密通道中传输的二次加密流量进行分类的方法
CN107958154A (zh) 一种恶意软件检测装置及方法
CN109391620A (zh) 异常行为判定模型的建立方法、系统、服务器及存储介质
CN112019500B (zh) 一种基于深度学习的加密流量识别方法及电子装置
CN109660656A (zh) 一种智能终端应用程序识别方法
CN116232696A (zh) 基于深度神经网络的加密流量分类方法
CN103929499A (zh) 一种物联网异构标识识别方法和系统
CN112437084B (zh) 一种攻击特征提取的方法
CN107239787A (zh) 一种利用多来源数据具有隐私保护功能的图象分类方法
CN116484109B (zh) 基于人工智能的客户画像分析系统及方法
CN1612135B (zh) 一种基于训练分类的协议识别方法
CN101562603B (zh) 一种通过回显解析telnet协议的方法及系统
CN115622810B (zh) 一种基于机器学习算法的业务应用识别系统及方法
CN116094971A (zh) 一种工控协议识别方法、装置、电子设备及存储介质
CN111143312A (zh) 一种电力日志的格式解析方法、装置、设备和存储介质
CN108241650A (zh) 训练分类标准的训练方法和装置
CN114884704B (zh) 一种基于对合和投票的网络流量异常行为检测方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant