CN110493088B

CN110493088B - 一种基于url的移动互联网流量分类方法

Info

Publication number: CN110493088B
Application number: CN201910905186.8A
Authority: CN
Inventors: 李超; 金鑫; 郭承青; 石光; 葛瑞海; 庹宇鹏; 周国桥; 李娟�
Original assignee: Institute of Information Engineering of CAS; National Computer Network and Information Security Management Center
Current assignee: Institute of Information Engineering of CAS; National Computer Network and Information Security Management Center
Priority date: 2019-09-24
Filing date: 2019-09-24
Publication date: 2021-06-01
Anticipated expiration: 2039-09-24
Also published as: CN110493088A

Abstract

本发明提供了一种基于URL的移动互联网流量分类方法，该方法建立在深度学习的基础上，通过分别标识URL数据集中所有唯一字母、数字和特殊字符，得到其字符级矩阵表示；标识URL数据集中唯一的单词，得到其单词级矩阵表示；然后基于卷积神经网络，进行同步训练，将各自的输出层合并得到一个完全连接层，最终得到分类模型。与现有技术相比，该发明通过最终训练完成的模型，能够提供自适应的、鲁棒性好的移动互联网流量分类，无需过多人工干预，能够更好地处理大量涌现的新的URL。

Description

一种基于URL的移动互联网流量分类方法

技术领域

本发明属于网络数据流流量识别领域，尤其涉及一种基于URL的移动互联网流量分类方法。

背景技术

网络数据流是一个多种应用业务数据混杂的集合，与传统互联网不同，移动互联网中的网络数据流是由各种终端应用APP生成的。随着移动互联网业务的演进与发展，应用开发者发布了海量的APP使得用户可以通过不同类型的APP接入移动互联网，这导致传统的基于特征库匹配的识别分类方法无法适用于分类繁多，不断涌现的移动网络流量分类。另一方面，APP生成的网络数据流大多是HTTP承载的，传统的面向端口、应用层协议等的分类方法也不能应用在移动互联网流量分类中。因此，亟需自适应的、鲁棒的移动互联网数据流流量分类方法。

近年来，研究者就移动互联网数据流流量分类技术展开了大量研究工作，并取得了积极成果，其中比较重要的相关研究成果包括：

1)基于应用特征字符串的流量分类方法。该算法首先利用人工分析构建特征字符串库，通过单模、多模或正则字符串匹配流量中的特征字段，根据匹配命中的结果为移动互联网流量分类。近年来在传统匹配算法上有了新的扩展，包括自动提取特征指纹自动化填充特征字符串库，减少人工干预。但是这种方法自动学习获取的流量指纹往往会带来较高的错误识别率，鲁棒性和扩展性不足。

2)基于自然语言处理的网络数据流分类方法。该方法采用自然语言处理的方法对移动网络流量中的特征字段进行建模，将杂乱无序的网络二进制数据流转化为可表征与量化的数据表达。进而可以采用机器学习的方法将不同网络数据流划分到特定的应用类别中。常见的基于自然语言处理的方法如NGRAM将每个网络数据流映射为一个one-hot的稀疏向量，通过多个字符组合构建多维度的特征向量。该方法生成one-hot向量是有限的，对于未定义的字符映射往往不能有效表征，这一定程度上丢失了原有数据流中的数据特征，并且稀疏向量的维度往往较高，会带来空间的爆炸，导致匹配效率较低。

3)基于网络空间流量行为的网络数据流分类方法。该方法通过网络数据自身的表现构建特征向量，包括五元组、包大小、包间隔、出入度比等一系列流量表现进行建模，将各个属性特征向量化。根据构建的特征向量采用机器学习的方法对不同网络数据流划分到具体的应用类别中。该方法不需要对流量自身内容进行分析，具有较好的鲁棒性，同时也可以对加密流量进行分析，但是基于流量自身行为进行建模往往依赖于网络流量的QoS状态，会对分类结果准确率有一定的抖动。此外，基于行为特征的网络数据流分类方法往往识别率较低，无法大范围应用于工业系统中。

发明内容

针对上述已有方法存在的问题，本发明了一种基于URL的移动互联网流量分类方法，该方法建立在深度学习的基础上，使用谷歌开源的TensorFlow来构建训练模型。与已公开的方法相对比，该方法通过最终训练完成的模型，能够提供自适应的、鲁棒性好的移动互联网流量分类，即无需过多人工干预，能够更好地处理大量涌现的新的URL。

本发明的技术方案如下：

一种基于URL的移动互联网流量分类方法，包括：

获取待分类URL数据；

将待分类数据输入训练完成的基于URL的移动互联网流量分类模型，获得分类结果；其中，

所述分类模型的构建方法包括以下步骤：

(1)获取URL训练数据集；

(2)标识训练数据集中所有唯一字母、数字和特殊字符，得到其字符级矩阵表示；

(3)标识训练数据集中唯一的单词，得到其单词级矩阵表示；

(4)基于卷积神经网络，对(2)和(3)的结果进行同步训练，将各自的输出层合并得到一个完全连接层，得到所述分类模型。

进一步地，步骤(1)中可以使用公开数据集标定URL来构建训练数据集。

进一步地，URL本质上是一串字符串或单词，以此来构建URL(u)的矩阵表示：u→x∈R^L×K，使得实例x为由一组连续的分量x_i(i＝1,2……,L)组成的一个序列，该分量可以是一个字符或单词；每个分量嵌入到K维向量中，L为URL的序列长度，长度超过L个字符的从第L个字符截断，长度小于L的，用pad()函数进行填充至长度为L；根据数据库中URL长度的分布，可以设定L＝200，维度K设置为K＝32。

步骤(2)所述字符级矩阵表示为u→x∈R^L1×K，L1＝200。

步骤(3)所述单词级矩阵表示具体为：

(3-1)若对URL的一个单词进行少量修改，字符级模型可能很难识别两个URL的不同，因此还需对训练数据进行单词(word)级处理：表示训练数据中唯一的单词，得到矩阵表示u→x∈R^L2×K，L2＝200；

(3-2)为每个单词获得一个字符级嵌入矩阵(与URL的字符级嵌入矩阵不同，这里旨在学习合适的字符嵌入来有效地表示单词)，u→x∈R^L3×K，其中每个单词被填充或截断为一个L3＝20的字符序列；

(3-3)URL的单词级矩阵表示为(6)和(7)这两个矩阵的数学计算之和。

进一步地，步骤(4)卷积神经网络的参数设置具体为：

设置卷积长度h，卷积滤波器W∈^K*h，K为维度，滤波器W对每段URL的h长度进行卷积，模型设置3种滤波器，h分别为4、6、8；激活层使用常用的ReLU函数，偏置b设置为2。

进一步地，步骤(4)完全连接层通过对字符级和单词级的dropout进行正则化得到。

进一步地，步骤(4)还包括基于反向传播由优化器训练模型。

本发明与已有方法相比，解决了传统方法中无法适用于分类繁多，不断涌现的移动网络流量分类的问题，具有自适应性、智能化以及较好的鲁棒性等优点。对于日益发达的移动互联网安全、便捷等方面都具有重要意义。

附图说明

图1为本发明方法流程图。

具体实施方式

为了更为具体地描述本发明，下面结合附图及具体实施方式对本发明的技术方案进行详细说明。

请参照图1，本发明具体实施方式如下：

(1)获取URL数据：可以使用公开数据集标定URL来构建数据集；

(2)将数据集进行均匀分类，分为训练数据(在获得的数据集中占比约90％)，测试数据(在获得的数据集中占比约10％)；

(3)根据URL的词汇特性，获取URL由字符或单词的矩阵表示：URL本质上是一串字符串或单词，以此来构建u(u表示URL)的矩阵表示，如下：u→x∈R^L×K(R代表实数)，使得实例x由一组连续的分量x_i，i＝1，2……,L组成一个序列，其中该分量可以是一个字符或单词。每个分量嵌入到K维向量中，L为URL的序列长度(长度超过L个字符的将从第L个字符截断，长度小于L的，URL将用pad()这个函数来实现填充，填充至长度为L)。根据数据库中URL长度的分布，可以设定L＝200，维度K设置为K＝32；

(4)设置卷积长度h，卷积滤波器W∈^K*h，K为(3)中的维度，滤波器W对每段URL的h长度进行卷积，模型设置3种滤波器，h分别为4、6、8；激活层使用常用的ReLU函数，偏置b设置为2；

(5)对训练数据进行字符(character)级处理：标识训练数据集中所有唯一字母、数字和特殊字符，按照(2)中方法每个字符都嵌入到一个K维向量中，得到URL的字符级矩阵表示u→x∈R^L1×K，L1＝200；

(6)若对URL的一个单词进行少量修改，字符级模型可能很难识别两个URL的不同，因此还需对训练数据进行单词(world)级训处理：将url划分为模式、服务器名称、路径和文件名4个部分，标识训练数据对应部分中唯一的单词，按照(2)中方法得到矩阵表示u→x∈R^L2×K，L2＝200；

(7)为每个单词获得一个字符级嵌入矩阵(与URL的字符级嵌入矩阵不同，这里旨在学习合适的字符嵌入来有效地表示单词)，u→x∈R^L3×K，其中每个单词被填充或截断为一个L3＝20的字符序列；

(8)URL的单词级矩阵表示为(6)和(7)这两个矩阵的数学计算和；

(9)根据(3)、(4)设计的参数来构建深度学习模型，将(5)中处理的数据输入模型作为字符级分支，将(6)和(7)中处理的数据输入模型作为单词级分支，设置学习效率为0.1到0.01之间；

(10)滤波器的个数设置为256，对两个分支进行卷积层处理得到各自分支的全连接层，经过激活层，最后得到一个完全连接层，该层通过对两个分支的dropout进行正则化得到，接着输入到输出分类器；

(11)使用反向传播由优化器训练该模型，直到输出分类器结果趋于静止；

(12)从测试数据中选取URL数据，输入训练好的模型，模型输出URL的分类；

(13)对比测试数据中URL对应的分类，来比较模型对URL分类的准确率。

尽管为说明目的公开了本发明的具体内容，其目的在于帮助理解本发明的内容并据以实施，但是本领域的技术人员可以理解：在不脱离本发明及所附的权利要求的精神和范围内，各种替换、变化和修改都是可能的。本发明不应局限于本说明书最佳实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种基于URL的移动互联网流量分类方法，其特征在于，包括：

获取待分类URL数据；

将待分类数据输入训练完成的移动互联网流量分类模型，获得分类结果；其中，

所述分类模型的构建方法包括以下步骤：

(1)获取URL训练数据集；

(2)标识训练数据集中全部唯一字母、数字和特殊字符，得到其字符级矩阵表示u→x∈R^L1×K，其中，u为URL数据集，x为URL实例，R为实数，L1为URL序列长度，K为维度；

(3)获取单词级矩阵表示；所述单词级矩阵表示为下述两个矩阵数学计算之和：

(a)通过将url划分为模式、服务器名称、路径与文件名四个部分，并标识训练数据集相应部分中唯一的单词，得到的矩阵表示u→x∈R^L2×K，L2为URL序列长度；

(b)每个单词的字符级嵌入矩阵表示u→x∈R^L3×K，L3为URL序列长度；

2.如权利要求1所述分类方法，其特征在于，L1＝200，K＝32。

3.如权利要求1所述分类方法，其特征在于，L2＝200，L3＝20。

4.如权利要求1所述分类方法，其特征在于，步骤(4)卷积神经网络设置3种滤波器，卷积长度h分别为4、6、8。

5.如权利要求1所述分类方法，其特征在于，步骤(4)卷积神经网络激活层使用ReLU函数，偏置b设置为2。

6.如权利要求1所述分类方法，其特征在于，步骤(4)设置学习效率为0.01-0.1。

7.如权利要求1所述分类方法，其特征在于，步骤(4)完全连接层通过对字符级和单词级的dropout进行正则化得到。

8.如权利要求1所述分类方法，其特征在于，步骤(4)还包括基于反向传播由优化器训练模型。