CN110493088B - 一种基于url的移动互联网流量分类方法 - Google Patents

一种基于url的移动互联网流量分类方法 Download PDF

Info

Publication number
CN110493088B
CN110493088B CN201910905186.8A CN201910905186A CN110493088B CN 110493088 B CN110493088 B CN 110493088B CN 201910905186 A CN201910905186 A CN 201910905186A CN 110493088 B CN110493088 B CN 110493088B
Authority
CN
China
Prior art keywords
url
word
classification
mobile internet
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910905186.8A
Other languages
English (en)
Other versions
CN110493088A (zh
Inventor
李超
金鑫
郭承青
石光
葛瑞海
庹宇鹏
周国桥
李娟�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Information Engineering of CAS
National Computer Network and Information Security Management Center
Original Assignee
Institute of Information Engineering of CAS
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Information Engineering of CAS, National Computer Network and Information Security Management Center filed Critical Institute of Information Engineering of CAS
Priority to CN201910905186.8A priority Critical patent/CN110493088B/zh
Publication of CN110493088A publication Critical patent/CN110493088A/zh
Application granted granted Critical
Publication of CN110493088B publication Critical patent/CN110493088B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/02Capturing of monitoring data
    • H04L43/028Capturing of monitoring data by filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/06Generation of reports
    • H04L43/062Generation of reports related to network traffic

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于URL的移动互联网流量分类方法,该方法建立在深度学习的基础上,通过分别标识URL数据集中所有唯一字母、数字和特殊字符,得到其字符级矩阵表示;标识URL数据集中唯一的单词,得到其单词级矩阵表示;然后基于卷积神经网络,进行同步训练,将各自的输出层合并得到一个完全连接层,最终得到分类模型。与现有技术相比,该发明通过最终训练完成的模型,能够提供自适应的、鲁棒性好的移动互联网流量分类,无需过多人工干预,能够更好地处理大量涌现的新的URL。

Description

一种基于URL的移动互联网流量分类方法
技术领域
本发明属于网络数据流流量识别领域,尤其涉及一种基于URL的移动互联网流量分类方法。
背景技术
网络数据流是一个多种应用业务数据混杂的集合,与传统互联网不同,移动互联网中的网络数据流是由各种终端应用APP生成的。随着移动互联网业务的演进与发展,应用开发者发布了海量的APP使得用户可以通过不同类型的APP接入移动互联网,这导致传统的基于特征库匹配的识别分类方法无法适用于分类繁多,不断涌现的移动网络流量分类。另一方面,APP生成的网络数据流大多是HTTP承载的,传统的面向端口、应用层协议等的分类方法也不能应用在移动互联网流量分类中。因此,亟需自适应的、鲁棒的移动互联网数据流流量分类方法。
近年来,研究者就移动互联网数据流流量分类技术展开了大量研究工作,并取得了积极成果,其中比较重要的相关研究成果包括:
1)基于应用特征字符串的流量分类方法。该算法首先利用人工分析构建特征字符串库,通过单模、多模或正则字符串匹配流量中的特征字段,根据匹配命中的结果为移动互联网流量分类。近年来在传统匹配算法上有了新的扩展,包括自动提取特征指纹自动化填充特征字符串库,减少人工干预。但是这种方法自动学习获取的流量指纹往往会带来较高的错误识别率,鲁棒性和扩展性不足。
2)基于自然语言处理的网络数据流分类方法。该方法采用自然语言处理的方法对移动网络流量中的特征字段进行建模,将杂乱无序的网络二进制数据流转化为可表征与量化的数据表达。进而可以采用机器学习的方法将不同网络数据流划分到特定的应用类别中。常见的基于自然语言处理的方法如NGRAM将每个网络数据流映射为一个one-hot的稀疏向量,通过多个字符组合构建多维度的特征向量。该方法生成one-hot向量是有限的,对于未定义的字符映射往往不能有效表征,这一定程度上丢失了原有数据流中的数据特征,并且稀疏向量的维度往往较高,会带来空间的爆炸,导致匹配效率较低。
3)基于网络空间流量行为的网络数据流分类方法。该方法通过网络数据自身的表现构建特征向量,包括五元组、包大小、包间隔、出入度比等一系列流量表现进行建模,将各个属性特征向量化。根据构建的特征向量采用机器学习的方法对不同网络数据流划分到具体的应用类别中。该方法不需要对流量自身内容进行分析,具有较好的鲁棒性,同时也可以对加密流量进行分析,但是基于流量自身行为进行建模往往依赖于网络流量的QoS状态,会对分类结果准确率有一定的抖动。此外,基于行为特征的网络数据流分类方法往往识别率较低,无法大范围应用于工业系统中。
发明内容
针对上述已有方法存在的问题,本发明了一种基于URL的移动互联网流量分类方法,该方法建立在深度学习的基础上,使用谷歌开源的TensorFlow来构建训练模型。与已公开的方法相对比,该方法通过最终训练完成的模型,能够提供自适应的、鲁棒性好的移动互联网流量分类,即无需过多人工干预,能够更好地处理大量涌现的新的URL。
本发明的技术方案如下:
一种基于URL的移动互联网流量分类方法,包括:
获取待分类URL数据;
将待分类数据输入训练完成的基于URL的移动互联网流量分类模型,获得分类结果;其中,
所述分类模型的构建方法包括以下步骤:
(1)获取URL训练数据集;
(2)标识训练数据集中所有唯一字母、数字和特殊字符,得到其字符级矩阵表示;
(3)标识训练数据集中唯一的单词,得到其单词级矩阵表示;
(4)基于卷积神经网络,对(2)和(3)的结果进行同步训练,将各自的输出层合并得到一个完全连接层,得到所述分类模型。
进一步地,步骤(1)中可以使用公开数据集标定URL来构建训练数据集。
进一步地,URL本质上是一串字符串或单词,以此来构建URL(u)的矩阵表示:u→x∈RL×K,使得实例x为由一组连续的分量xi(i=1,2……,L)组成的一个序列,该分量可以是一个字符或单词;每个分量嵌入到K维向量中,L为URL的序列长度,长度超过L个字符的从第L个字符截断,长度小于L的,用pad()函数进行填充至长度为L;根据数据库中URL长度的分布,可以设定L=200,维度K设置为K=32。
步骤(2)所述字符级矩阵表示为u→x∈RL1×K,L1=200。
步骤(3)所述单词级矩阵表示具体为:
(3-1)若对URL的一个单词进行少量修改,字符级模型可能很难识别两个URL的不同,因此还需对训练数据进行单词(word)级处理:表示训练数据中唯一的单词,得到矩阵表示u→x∈RL2×K,L2=200;
(3-2)为每个单词获得一个字符级嵌入矩阵(与URL的字符级嵌入矩阵不同,这里旨在学习合适的字符嵌入来有效地表示单词),u→x∈RL3×K,其中每个单词被填充或截断为一个L3=20的字符序列;
(3-3)URL的单词级矩阵表示为(6)和(7)这两个矩阵的数学计算之和。
进一步地,步骤(4)卷积神经网络的参数设置具体为:
设置卷积长度h,卷积滤波器W∈K*h,K为维度,滤波器W对每段URL的h长度进行卷积,模型设置3种滤波器,h分别为4、6、8;激活层使用常用的ReLU函数,偏置b设置为2。
进一步地,步骤(4)完全连接层通过对字符级和单词级的dropout进行正则化得到。
进一步地,步骤(4)还包括基于反向传播由优化器训练模型。
本发明与已有方法相比,解决了传统方法中无法适用于分类繁多,不断涌现的移动网络流量分类的问题,具有自适应性、智能化以及较好的鲁棒性等优点。对于日益发达的移动互联网安全、便捷等方面都具有重要意义。
附图说明
图1为本发明方法流程图。
具体实施方式
为了更为具体地描述本发明,下面结合附图及具体实施方式对本发明的技术方案进行详细说明。
请参照图1,本发明具体实施方式如下:
(1)获取URL数据:可以使用公开数据集标定URL来构建数据集;
(2)将数据集进行均匀分类,分为训练数据(在获得的数据集中占比约90%),测试数据(在获得的数据集中占比约10%);
(3)根据URL的词汇特性,获取URL由字符或单词的矩阵表示:URL本质上是一串字符串或单词,以此来构建u(u表示URL)的矩阵表示,如下:u→x∈RL×K(R代表实数),使得实例x由一组连续的分量xi,i=1,2……,L组成一个序列,其中该分量可以是一个字符或单词。每个分量嵌入到K维向量中,L为URL的序列长度(长度超过L个字符的将从第L个字符截断,长度小于L的,URL将用pad()这个函数来实现填充,填充至长度为L)。根据数据库中URL长度的分布,可以设定L=200,维度K设置为K=32;
(4)设置卷积长度h,卷积滤波器W∈K*h,K为(3)中的维度,滤波器W对每段URL的h长度进行卷积,模型设置3种滤波器,h分别为4、6、8;激活层使用常用的ReLU函数,偏置b设置为2;
(5)对训练数据进行字符(character)级处理:标识训练数据集中所有唯一字母、数字和特殊字符,按照(2)中方法每个字符都嵌入到一个K维向量中,得到URL的字符级矩阵表示u→x∈RL1×K,L1=200;
(6)若对URL的一个单词进行少量修改,字符级模型可能很难识别两个URL的不同,因此还需对训练数据进行单词(world)级训处理:将url划分为模式、服务器名称、路径和文件名4个部分,标识训练数据对应部分中唯一的单词,按照(2)中方法得到矩阵表示u→x∈RL2×K,L2=200;
(7)为每个单词获得一个字符级嵌入矩阵(与URL的字符级嵌入矩阵不同,这里旨在学习合适的字符嵌入来有效地表示单词),u→x∈RL3×K,其中每个单词被填充或截断为一个L3=20的字符序列;
(8)URL的单词级矩阵表示为(6)和(7)这两个矩阵的数学计算和;
(9)根据(3)、(4)设计的参数来构建深度学习模型,将(5)中处理的数据输入模型作为字符级分支,将(6)和(7)中处理的数据输入模型作为单词级分支,设置学习效率为0.1到0.01之间;
(10)滤波器的个数设置为256,对两个分支进行卷积层处理得到各自分支的全连接层,经过激活层,最后得到一个完全连接层,该层通过对两个分支的dropout进行正则化得到,接着输入到输出分类器;
(11)使用反向传播由优化器训练该模型,直到输出分类器结果趋于静止;
(12)从测试数据中选取URL数据,输入训练好的模型,模型输出URL的分类;
(13)对比测试数据中URL对应的分类,来比较模型对URL分类的准确率。
尽管为说明目的公开了本发明的具体内容,其目的在于帮助理解本发明的内容并据以实施,但是本领域的技术人员可以理解:在不脱离本发明及所附的权利要求的精神和范围内,各种替换、变化和修改都是可能的。本发明不应局限于本说明书最佳实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。

Claims (8)

1.一种基于URL的移动互联网流量分类方法,其特征在于,包括:
获取待分类URL数据;
将待分类数据输入训练完成的移动互联网流量分类模型,获得分类结果;其中,
所述分类模型的构建方法包括以下步骤:
(1)获取URL训练数据集;
(2)标识训练数据集中全部唯一字母、数字和特殊字符,得到其字符级矩阵表示u→x∈RL1×K,其中,u为URL数据集,x为URL实例,R为实数,L1为URL序列长度,K为维度;
(3)获取单词级矩阵表示;所述单词级矩阵表示为下述两个矩阵数学计算之和:
(a)通过将url划分为模式、服务器名称、路径与文件名四个部分,并标识训练数据集相应部分中唯一的单词,得到的矩阵表示u→x∈RL2×K,L2为URL序列长度;
(b)每个单词的字符级嵌入矩阵表示u→x∈RL3×K,L3为URL序列长度;
(4)基于卷积神经网络,对(2)和(3)的结果进行同步训练,将各自的输出层合并得到一个完全连接层,得到所述分类模型。
2.如权利要求1所述分类方法,其特征在于,L1=200,K=32。
3.如权利要求1所述分类方法,其特征在于,L2=200,L3=20。
4.如权利要求1所述分类方法,其特征在于,步骤(4)卷积神经网络设置3种滤波器,卷积长度h分别为4、6、8。
5.如权利要求1所述分类方法,其特征在于,步骤(4)卷积神经网络激活层使用ReLU函数,偏置b设置为2。
6.如权利要求1所述分类方法,其特征在于,步骤(4)设置学习效率为0.01-0.1。
7.如权利要求1所述分类方法,其特征在于,步骤(4)完全连接层通过对字符级和单词级的dropout进行正则化得到。
8.如权利要求1所述分类方法,其特征在于,步骤(4)还包括基于反向传播由优化器训练模型。
CN201910905186.8A 2019-09-24 2019-09-24 一种基于url的移动互联网流量分类方法 Active CN110493088B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910905186.8A CN110493088B (zh) 2019-09-24 2019-09-24 一种基于url的移动互联网流量分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910905186.8A CN110493088B (zh) 2019-09-24 2019-09-24 一种基于url的移动互联网流量分类方法

Publications (2)

Publication Number Publication Date
CN110493088A CN110493088A (zh) 2019-11-22
CN110493088B true CN110493088B (zh) 2021-06-01

Family

ID=68559148

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910905186.8A Active CN110493088B (zh) 2019-09-24 2019-09-24 一种基于url的移动互联网流量分类方法

Country Status (1)

Country Link
CN (1) CN110493088B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111181969B (zh) * 2019-12-30 2021-03-23 西安交通大学 一种基于自发流量的物联网设备识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102790762A (zh) * 2012-06-18 2012-11-21 东南大学 基于url分类的钓鱼网站检测方法
CN106960040A (zh) * 2017-03-27 2017-07-18 北京神州绿盟信息安全科技股份有限公司 一种url的类别确定方法及装置
CN108628822A (zh) * 2017-03-24 2018-10-09 阿里巴巴集团控股有限公司 无语义文本的识别方法及装置
CN109284385A (zh) * 2018-10-15 2019-01-29 平安科技(深圳)有限公司 基于机器学习的文本分类方法及终端设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105893583A (zh) * 2016-04-01 2016-08-24 北京鼎泰智源科技有限公司 基于人工智能的数据采集方法及系统
CN107818132A (zh) * 2017-09-21 2018-03-20 中国科学院信息工程研究所 一种基于机器学习的网页代理发现方法
US10812495B2 (en) * 2017-10-06 2020-10-20 Uvic Industry Partnerships Inc. Secure personalized trust-based messages classification system and method
CN107992469A (zh) * 2017-10-13 2018-05-04 中国科学院信息工程研究所 一种基于词序列的钓鱼url检测方法及系统
CN109005145B (zh) * 2018-06-04 2021-01-01 上海交通大学 一种基于自动特征抽取的恶意url检测系统及其方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102790762A (zh) * 2012-06-18 2012-11-21 东南大学 基于url分类的钓鱼网站检测方法
CN108628822A (zh) * 2017-03-24 2018-10-09 阿里巴巴集团控股有限公司 无语义文本的识别方法及装置
CN106960040A (zh) * 2017-03-27 2017-07-18 北京神州绿盟信息安全科技股份有限公司 一种url的类别确定方法及装置
CN109284385A (zh) * 2018-10-15 2019-01-29 平安科技(深圳)有限公司 基于机器学习的文本分类方法及终端设备

Also Published As

Publication number Publication date
CN110493088A (zh) 2019-11-22

Similar Documents

Publication Publication Date Title
CN112329016B (zh) 一种基于深度神经网络的可视化恶意软件检测装置及方法
CN107516041B (zh) 基于深度神经网络的WebShell检测方法及其系统
US8280915B2 (en) Binning predictors using per-predictor trees and MDL pruning
CN110765265A (zh) 信息分类抽取方法、装置、计算机设备和存储介质
CN110597735A (zh) 一种面向开源软件缺陷特征深度学习的软件缺陷预测方法
CN110750640B (zh) 基于神经网络模型的文本数据分类方法、装置及存储介质
CN111259142A (zh) 基于注意力编码和图卷积网络的特定目标情感分类方法
CN113707235A (zh) 基于自监督学习的药物小分子性质预测方法、装置及设备
CN112131383A (zh) 特定目标的情感极性分类方法
CN111782637A (zh) 一种模型构建方法、装置及设备
WO2020199595A1 (zh) 基于词袋模型的长文本分类方法、装置、计算机设备及存储介质
CN112836509A (zh) 一种专家系统知识库构建方法及系统
CN112418320A (zh) 一种企业关联关系识别方法、装置及存储介质
CN118153016B (zh) 基于人工智能的鉴权系统
CN117633811A (zh) 一种多视角特征融合的代码漏洞检测方法
US20200167655A1 (en) Method and apparatus for re-configuring neural network
CN110472659B (zh) 数据处理方法、装置、计算机可读存储介质和计算机设备
CN110493088B (zh) 一种基于url的移动互联网流量分类方法
CN116796288A (zh) 一种面向工业文档的多模态信息提炼方法和系统
CN116956015A (zh) 一种数据筛选方法、装置、设备及存储介质
CN116432125A (zh) 基于哈希算法的代码分类方法
CN113869049B (zh) 基于法律咨询问题的具有法律属性的事实抽取方法及装置
CN116204647A (zh) 一种目标比对学习模型的建立、文本聚类方法及装置
CN112364666B (zh) 文本表征方法、装置及计算机设备
CN113434698B (zh) 基于全层级注意力的关系抽取模型建立方法及其应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information

Inventor after: Li Chao

Inventor after: Jin Xin

Inventor after: Guo Chengqing

Inventor after: Shi Guang

Inventor after: Wang Pei

Inventor after: Ge Ruihai

Inventor after: Lu Yupeng

Inventor after: Zhou Guoqiao

Inventor after: Li Juan

Inventor before: Li Chao

Inventor before: Jin Xin

Inventor before: Guo Chengqing

Inventor before: Shi Guang

Inventor before: Ge Ruihai

Inventor before: Lu Yupeng

Inventor before: Zhou Guoqiao

Inventor before: Li Juan

CB03 Change of inventor or designer information