CN108897739B

CN108897739B - 一种智能化的应用流量识别特征自动挖掘方法与系统

Info

Publication number: CN108897739B
Application number: CN201810803379.8A
Authority: CN
Inventors: 陶敬; 王平辉; 曹宇; 潜禹桥; 柳哲; 孙立远; 林杰
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2018-07-20
Filing date: 2018-07-20
Publication date: 2020-06-26
Anticipated expiration: 2038-07-20
Also published as: CN108897739A

Abstract

本发明提供一种智能化的应用流量识别特征自动挖掘方法与系统，通过对应用流量内容以及该应用描述的文本分析，结合Attention和Word2Vector模型，组成对应用流量识别特征的自动提取方法。包括对应用流量语义处理模块、对应用描述语义处理以及特征筛选三个模块；以应用流量作为输入，抽取出可打印地候选特征集，并以Word2Vector模型学习其对应的向量表示；对应用软件安装包作为输入，对其进行分析获取应用具体名称，并在搜索引擎中找到其相关的描述文本。通过Attention模型，学习描述文本中的关键词，以Word2Vector模型，学习其向量表示；计算候选特征向量表示与应用描述关键词向量表示之间的余弦相似度，根据相似度阈值筛选出流量特征。本发明可用于对应用流量识别特征的挖掘。

Description

一种智能化的应用流量识别特征自动挖掘方法与系统

技术领域

本发明属于流量识别特征挖掘技术领域，使用的主要方法是自然语言处理中的Word2Vector模型方法、Attention机制以及语义相似度计算方法，特别涉及一种智能化的应用流量识别特征自动挖掘方法与系统。

背景技术

近年来，移动设备在人们的工作和生活中变得越来越受欢迎，根据中国互联网络信息中心(CNNIC)发布的第四十次《中国互联网络发展状况统计报告》显示，截至2017年6月，中国网民规模达到7.51亿，占全球网民总数的五分之一。其中，手机网民规模达7.24亿，较2016年底增加2830万人。网民中使用手机上网的比例由2016年底的95.1％提升至96.3％。同时，人们对于各类互联网设备的依赖性也越来越严重。平均，每人每天花费在电子设备上的时间超过3小时，而花费各类软件应用上的时间就超过了两个小时。而对于应用软件的使用情况进行分析，发现特定用户对于某些特定类型的应用，使用频繁。而这些应用的类型，在某种程度上，反映了该用户的偏好属性，进而也会反映出该用户的某些个人属性。例如，经常使用金融证券类的用户，明显对于投资、金融等相关资讯感兴趣，则该用户可能就是证券经理、个人或企业投资者。那么，基于上述的可能性，如果能对可靠地用户App使用行为进行分析画像，就能得到具有较高可信度的用户描述。

但是，应用软件种类数目繁多。目前，仅用户常用的智能手机App数量，就超过了10万个，整体移动端App数量超过三百万。PC端应用软件数量，也在十万左右。同时，用户的软件使用行为属于用户隐私，常规方法是无法获取可靠的用户软件使用行为数据的。

不过，我们可以通过某种方式，获取到网络管道中传输的用户流量。比如，移动数据供应商而言，在各级交换机上进行流量监听，便可获取到各级用户群组的流量数据。如果，能从用户的网络设备流量中，识别出用户所使用的应用软件，则对于获取可靠的用户软件使用行为就成为了可能。进一步地也就可以对用户进行精准画像，获取详细的用户属性描述了。

业界也发现了这种潜在的价值，也进行了相关的技术尝试和科学研究。目前，对流量进行特征提取的方法主要有：

1.基于预定义或特殊端口的流量特征提取：根据通用的网络协议端口来提取识别网络流量，或根据预定义的特殊端口，提取识别网络流量

2.基于DPI的流量特征提取方法：根据确定经验和规则，从流量内容中提取符合指定条件的特征字/指纹/序列，作为流量特征

3.基于深度学习模型的流量特征提取方法：将流量内容按照一定的映射关系，转化为深度学习模型的标准输入，根据深度学习模型，自动提取流量特征

应用流量存在如下特点：

1.应用软件所使用的网络协议大都是几种常用的类型，如：HTTP、SSL、HTTPS等。因此，从网络流量的协议类型层面，是无法获取到细粒度的流量识别结果的。端口号跟流量所使用的协议类型有关，因此，识别流量协议端口号，是不能获取细粒度识别结果的；

2.应用软件调用第三方库文件现象普遍，主要表现为应用内部注入广告、调用其他应用软件或开发平台的接口SDK、API等。这些第三方库的调用，会在应用流量方面有所体现，并与应用自身流量有所区别。即，第三方库所产生的流量，体现其他应用或平台特征。这对于提取应用的特征，以及根据特征来识别应用流量产生了严重的负面影响。例如：淘宝的广告也会产生含有手机淘宝移动APP的特征(如：taobao特征字)的流量，由于广告模块的注入，这些淘宝广告会出现在多款网络应用的内部。那么，在对含有淘宝广告的移动APP应用，进行特征提取时，就会有许多噪声(第三方库流量)干扰；

3.同一库文件，对于不同应用，表现不同属性。例如：手机淘宝的库文件，对于手机淘宝而言是本地库，对于美团而言是第三方库；

4.由于库文件对于不同应用软件，表现出来的属性不同。对应于流量识别中，同一条应用流量，仅凭流量内容也无法确定对应的应用；

基于上述的应用流量现状，对于现有的流量识别特征提取方法来讲，存在缺点如下：

1.基于预定义或特殊端口的流量识别方法：

※非标准端口或新定义的端口不适用。

※识别粒度不够，无法定位产生样本流量的应用。

2.基于DPI和统计特征的流量识别：

※为监督或半监督方式，确定特征字/指纹的过程耗时耗力。

※对于噪声存在的条件下，特征的选取和识别效果均不理想。

3.基于深度学习提取流量图像化特征的识别方法：

※输入需要人工进行筛选和标定，以确保样本有效性，不适合大规模自动化地网络应用特征提取和识别。

※模型训练过程时间开销较大。

※提取出来的抽象特征，以参数形式存储于模型中，无法单独将特征抽取出来。使用不便，且对用户流量进行识别分类时，时间开销大。

发明内容

为了克服上述现有技术中应用流量的特点以及现存的流量特征提取方法所存在的缺陷，申请人发现，应用流量的数据包内容与应用本身的描述信息，是存在语义上的相关性的，并且，这种相关性，能够指导我们根据流量内容所携带的潜在语义，识别该应用。据此，本发明的目的在于提供一种智能化的应用流量识别特征自动挖掘方法与系统，其基于自然处理思路，更加合理，更加通用化，首先，对应用流量进行候选特征集的筛选和获取，以Word2Vector模型对候选特征的潜在语义进行向量学习；其次，根据软件名称，在搜索引擎中检索软件应用的描述文本信息，以Attention模型抽取描述文本中的关键词，仍以Word2Vector模型对关键词所携带的语义进行向量学习；最后，计算候选特征与描述文本关键词之间的语义相似度，筛选得到应用流量的识别特征。

为了实现上述目的，本发明采用的技术方案是：

一种智能化的应用流量识别特征自动挖掘方法，包括：

S1将抽取出的应用流量DPI候选特征内容，作为一种语言，使用自然语言处理中的Word2Vector模型方法，学习其语义的向量表示；

S2对应用描述文本使用Attention(注意力)模型，提取对描述进行概括的关键部分，并使用与S1相同的Word2Vector模型，学习描述文本的语义向量表示；

S3逐一计算两类向量表示的余弦相似度，筛选得到相似度大于指定阈值的候选特征，作为应用流量的最终识别特征。

本发明还包括，获取应用流量的候选特征集，具体包括：

对应用流量进行DPI方式的解析，获取数据报文内容；

根据数据报文内容，抽取出可打印部分；

根据指定的特征长度阈值，将满足长度条件的可打印部分，作为候选特征，生成候选特征集,供后续Word2Vector模型学习其语义向量表示。

本发明还包括：根据网上公开的开源中英文语料库(例如，中科院自动化所的中英文新闻语料库等)，预先对Word2Vector模型进行训练；以及，根据人工标定的训练样本，预先训练好Attention模型(Attention Model)。

本发明还包括：使用预先训练好的Word2Vector模型，逐一对候选特征进行语义学习，获取其语义向量表示；

以及，将获取到的应用描述文本的分词结果，逐一使用预先训练好的Attention模型，学习其每个词的Attention分布概率，选取概率最大的指定数目的词，作为该应用描述文本的词语概括，使用预先训练好的Word2Vector模型，学习出这些词的语义向量表示。

本发明还包括：利用开源工具，对应用软件安装包进行分析，获取应用的名称、开发厂商等基本描述信息，使用网络爬虫方式，在搜索引擎中，搜素爬取该应用所对应的描述网页文本，并使用分词工具对文本进行分词,最终得到的分词内容构成了应用的描述文本,后续使用Attention模型,提取描述中的概括关键部分。

本发明还包括：使用余弦相似度计算方法，逐一计算候选特征与应用描述关键词之间的语义相似度，根据指定的阈值，筛选出与应用描述关键词的语义相似度高的候选特征，作为应用流量的识别特征。

本发明还提供了一种智能化的应用流量识别特征自动挖掘系统，包括：

流量语言处理模块，对应用流量提取候选特征子集，并学习其语义向量表示；

应用描述语言处理模块，检索应用描述文本，抽取关键词部分，并学习描述文本关键词的语义向量表示；

特征筛选模块，计算候选识别特征与应用描述文本关键词之间的语义相似程度，通过阈值过滤后，筛选出最终的应用流量识别特征。

所述流量语言处理模块由流量数据解析子模块、候选特征集提取子模块和向量表示学习子模块组成，三个子模块组合完成对应用流量提取候选特征并学习语义向量表示的功能，其中：

所述流量数据解析子模块，对应用流量数据包进行DPI解析，获取其负载内容部分；

所述候选特征集提取子模块，对获取到的应用流量负载部分，进行字符串分割，分割的依据为字节码是否为可打印的ASCII码值，同时，对分割后的可打印字符串进行长度判断，保留具备足够长度的字符串作为候选特征集；

所述向量表示学习子模块，使用预先训练好的Word2Vector模型，对候选特征进行逐一学习，获取到每个候选特征的语义向量表示。

所述应用描述语言处理模块由应用安装包分析子模块、描述文本获取子模块、描述关键部分提取子模块和向量表示学习子模块组成，四个子模块组合完成对应用软件描述信息的获取，抽取关键词以及关键词语义向量学习功能，其中：

应用安装包分析子模块，对应用软件安装包进行签名信息获取，得到应用具体名称；

描述文本获取子模块，根据获取到的应用具体名称，使用爬虫技术，检索获取应用软件的官网文本内容；

描述关键部分提取子模块，对网页文本进行分词后，使用预先训练好的Attention模型，对每一个词组进行Attention概率分布计算，将概率最大的若干词组，作为关键词部分；

向量表示学习子模块，使用预先训练好的Word2Vector模型，学习其语义向量表示。

所述特征筛选模块由相似度计算子模块和特征筛选子模块组成，两个子模块组合完成计算候选识别特征与应用描述文本关键词之间的语义相似程度，并以阈值条件，筛选得到应用流量识别特征，其中：

所述相似度计算子模块，负责逐一计算候选特征语义向量与描述关键词语义向量之间的相似度；

所述特征筛选子模块，负责根据预先设置好的相似度语义，将符合条件的候选特征过滤出来，作为最终的应用流量识别特征。

与现有技术相比，本发明的有益效果是：

1)将流量作为自然语言，流量内容潜在的语义进行抽取和学习。

2)使用爬虫技术，从互联网上获取完备的应用软件描述文本，并以Attention模型，对描述文本进行关键词概括，最终以关键词的语义来替代描述文本语义。

3)以流量候选特征的潜在语义与应用描述携带的语义之间的相似度，来判断筛选流量识别特征。将基于专家经验的手工提取流量特征过程，以自然语言处理的方式，自动化实现。

附图说明

图1为本发明模块整体结构图。

图2为本发明流量语言处理模块流程图。

图3为本发明应用描述语言处理模块流程图。

图4为本发明特征筛选模块流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面结合附图和实施例详细说明本发明的实施方式。

如图1所示，本方法由三个模块组成，分别是流量语言处理模块，应用描述语言处理模块以及特征筛选模块。其中，流量语言处理模块的输入为应用流量数据，应用描述语言处理模块的输入为应用软件安装包，特征筛选模块的输入为候选特征的向量表示和应用描述关键词的向量表示。由于上述三个模块分别实现不同的功能，接下来我们对不同的模块分别进行介绍。

1、流量语言处理模块

如图2所示，流量语言处理模块实现的功能是，提取应用流量中的候选特征，并学习其语义向量表示。

首先，可以使用python中的scapy库中的rdpcap函数，或自编代码逐字节对应用流量数据按协议进行解析，提取到流量数据的负载部分；

其次，对应用流量负载部分，逐字节进行分析，将可打印字符串(ASCII码值在可打印范围内)提取出来，并与长度阈值---10进行比较，字符串长度满足条件的作为候选特征；

最后，使用预先训练好的Word2Vector模型，学习候选特征的语义向量表示；

其中，Word2Vector模型，是根据网上公开的中英文语料库(例如，中科院自动化所的中英文新闻语料库等)训练好的，初始模型来源于python中gensim库中的Word2Vec。该模型的精确度并不是本发明中对此模型的评价标准。此处，本发明更加关注不同语义的词在向量空间中的距离是否更远，即，本发明更关注不同词之间在语义上的差异度，语义相近的词的欧式距离尽可能地小。

2、应用描述语言处理模块

如图3所示，应用描述语言处理模块实现的功能是，通过爬虫技术，获取网络上的应用描述网页文本内容，抽取其中的关键词，学习应用描述文本关键词的语义向量表示。

首先，对应用安装包文件，进行分析，获取其数字签名中的应用名称部分。针对于移动端(Android系统)应用，可以使用aapt工具中的aapt dump badging命令获取apk文件的数字签名，进而获取其移动端应用软件名称。针对于PC端的应用，可以使用python中的win32api库中的GetFileVersionInfo函数，获取.exe文件的数字签名，进而获取PC端应用软件的名称。

其次，根据上一步骤获取到的应用软件名称，结合python中urllib2开源库中的Request和Response函数，使用爬虫框架，从百度、搜狗、Google等搜索引擎中，搜索爬取该应用软件的描述网页，并保存网页文本内容。使用python中的jieba分词中的cut函数，对描述文本内容进行分词。使用预先训练好的Attention模型，对描述词组，逐一进行Attention概率计算，选取概率最高的五个词，作为关键词；

最后，使用预先训练好的Word2Vector模型，逐一学习这五个关键词的语义向量表示。

其中，上面提到的预先训练好的Attention机制模型，需自编代码实现。训练的理论步骤如下：

1)单词编码为向量：

x_it＝W_ewit，t∈[1，T]

2)使用双向GRU编码句子关于单词w_it的隐含向量：

3)获得词关于句子的隐含向量：

4)通过一个MLP获取h_it的隐含表示：

u_it＝tanh(W_ωh_it+b_ω)

5)通过一个softmax函数获取归一化权重：

6)计算句子向量：

S_i＝∑_tα_ith_it

其中，假设文档D有L个句子s_i(i代表s是文档D的第i个句子)，每个句子包含T_i个词(word)，W_it代表第i个句子中的word，t∈[0，T]；x_it代表第i个句子中第t个单词的向量表示；GRU即为Gated Recurrent Unit，

为正向输入句子中的单词时，神经网络的函数；

为反向输入句子中的单词时，神经网络的函数；

为正向输入句子中的单词时，神经网络输出的前向隐含向量；

为反向输入句子中的单词时，神经网络输出的反向向量；h_it为最终隐含向量；tanh()为激活函数；u_it为第t和句子中第i个单词的激活函数值；u_ω为词级别的文本向量；α_it为单词i在t句子中的权重，即Attention；

根据上述步骤，可得每个单词在句子中的权重即Attention。而后，将每个句子当做一个对象，再次获取其在整篇文本中的隐含向量表示以及Attention后，取出该句中，权重最高的单词，即为整篇文本的关键词。

结合python中的tensorflow库，即可训练得到Attention模型。

3、特征筛选模块

如图4所示，特征筛选模块实现的功能是，计算候选特征语义向量与应用描述关键词语义向量之间的相似度，并根据指定的阈值，来筛选得到应用流量的识别特征。

首先，将候选特征的向量表示与应用描述关键词的向量表示，按照如下公式，计算相似度：

其次，将计算得到的相似度与预先设置的阈值---0.5，进行比对，将语义相似度大于0.5的候选特征筛选出来，作为最终的应用流量识别特征。

Claims

1.一种智能化的应用流量识别特征自动挖掘方法，其特征在于，包括：

S1对应用流量进行DPI方式的解析，获取数据报文内容；根据数据报文内容，进行字符串分割，分割的依据为字节码是否为可打印的ASCII码值，抽取出可打印部分；对分割后的可打印字符串进行长度判断，根据指定的特征长度阈值，将满足长度条件的可打印部分，作为候选特征，生成候选特征集；将抽取出的应用流量DPI候选特征内容，作为一种语言，使用预先训练好的Word2Vector模型，逐一对候选特征进行语义学习，获取其语义向量表示；

S2对应用描述文本使用Attention模型，提取对描述进行概括的关键部分，并使用与S1相同的Word2Vector模型，学习描述文本的语义向量表示，方法如下：

将获取到的应用描述文本的分词结果，逐一使用预先训练好的Attention模型，学习其每个词的Attention分布概率，选取概率最大的指定数目的词，作为该应用描述文本的词语概括，使用预先训练好的Word2Vector模型，学习出这些词的语义向量表示；

S3使用余弦相似度计算方法，逐一计算候选特征与应用描述关键词之间的语义相似度，根据指定的阈值，筛选得到相似度大于指定阈值的候选特征，作为应用流量的最终识别特征。

2.根据权利要求1所述智能化的应用流量识别特征自动挖掘方法，其特征在于，还包括：根据网上公开的开源中英文语料库，预先对Word2Vector模型进行训练；以及，根据人工标定的训练样本，预先训练好Attention模型。

3.根据权利要求1所述智能化的应用流量识别特征自动挖掘方法，其特征在于，还包括：利用开源工具，对应用软件安装包进行分析，获取应用的名称、开发厂商等基本描述信息，使用网络爬虫方式，在搜索引擎中，搜素爬取该应用所对应的描述网页文本，并使用分词工具对文本进行分词,最终得到的分词内容构成了应用的描述文本,后续使用Attention模型,提取描述中的概括关键部分。

4.一种智能化的应用流量识别特征自动挖掘系统，其特征在于，包括：

特征筛选模块，计算候选识别特征与应用描述文本关键词之间的语义相似程度，通过阈值过滤后，筛选出最终的应用流量识别特征；

所述向量表示学习子模块，使用预先训练好的Word2Vector模型，对候选特征进行逐一学习，获取到每个候选特征的语义向量表示；

向量表示学习子模块，将获取到的应用描述文本的分词结果，逐一使用预先训练好的Attention模型，学习其每个词的Attention分布概率，选取概率最大的指定数目的词，作为该应用描述文本的词语概括，使用预先训练好的Word2Vector模型，学习出这些词的语义向量表示；

所述特征筛选子模块，负责根据预先设置好的相似度语义，根据指定的阈值，筛选得到相似度大于指定阈值的候选特征，作为应用流量的最终识别特征。