CN106685963B

CN106685963B - 一种恶意网络流量词库的建立方法及建立系统

Info

Publication number: CN106685963B
Application number: CN201611243293.1A
Authority: CN
Inventors: 陈贞翔; 王闪闪; 杨波; 赵川; 孙润元; 荆山
Original assignee: University of Jinan
Current assignee: University of Jinan
Priority date: 2016-12-29
Filing date: 2016-12-29
Publication date: 2020-10-30
Anticipated expiration: 2036-12-29
Also published as: CN106685963A

Abstract

本发明公开了一种恶意网络流量词库的建立方法及建立系统；获取正常流量的内容，对获取到的正常流量的内容进行分词，得到正常流量的正常词集；获取恶意流量的内容，对获取到的恶意流量的内容进行分词，得到恶意流量的恶意词集；对正常流量的正常词集进行单词过滤，按照自定义的过滤规则过滤掉与恶意软件的检测无关的单词；对恶意流量的恶意词集进行单词过滤，按照自定义的过滤规则过滤掉与恶意软件的检测无关的单词；将正常词集和恶意词集进行汇总得到第一汇总词集，利用每个单词在正常词集和恶意词集中出现的频率，计算卡方值；利用卡方检验对第一汇总词集进行单词过滤，利用卡方值从第一汇总词集中挑选出恶意单词，组成恶意网络流量词库。

Description

一种恶意网络流量词库的建立方法及建立系统

技术领域

本发明涉及一种恶意网络流量词库的建立方法及建立系统。

背景技术

随着移动终端的普及和各种应用的出现，移动平台上的恶意应用也日渐猖狂，几种常见的恶意软件检测方法面临着越来越多的挑战。目前比较常见的恶意应用检测方法有三种，第一种是基于静态代码扫描的方法，第二种是基于动态系统调用的方法，第三种是基于网络流量进行恶意应用识别的方法。这三种方法各有优缺点，其中比较成熟的方法是基于静态代码扫描进行恶意应用识别的方法。采用网络流量进行恶意软件检测的方法是最近几年比较受关注的一种方法，它的实用性也不断地等到了业界专家的证实。然而现在大部分的恶意流量识别方法都是依据提取恶意流量的一些统计特征，如流持续的时间，流的个数等等进行恶意流量的识别。这种方法通过一些统计数据来刻画流的宏观特征，这种刻画是粗粒度的，可能会造成很高的误判。还有一些方法是深入到了流内容的层面，但是这些方法大部分都是仅仅关注网络流量的某些字段，如host,request-uri等。由于这些方法仅仅关注几个特定的字段，会丢失掉很多对恶意流量检测有意义的信息。

基于以上现状，为解决恶意网络流量识别粗粒度和特征不足的问题，迫切需要一个与恶意网络流量相关的特征库，就像静态代码扫描方法使用的恶意代码库一样。当未知的流量到来，只需要拿这个流量的内容与恶意流量特征库进行对比，一旦比对成功，或者某种程度上与恶意流量库中的内容十分相似，就可以认为这条流量为恶意流量。进而产生该恶意流量的APP就可以被认为是恶意应用。

发明内容

本发明的目的就是针对上述问题，提供一种恶意网络流量词库的建立方法及建立系统，用自然语言处理领域的方法来处理网络流量，根据恶意网络流量和正常网络流量的对比性分析结果，创建了一个恶意网络流量词库。这个恶意网络流量词库可以应用到恶意网络流量的检测中，进而通过检测出的恶意流量找到源头APP，则该APP就可以被认定为恶意应用。

为了实现上述目的，本发明采用如下技术方案：

一种恶意网络流量词库的建立方法，包括如下步骤：

步骤(1)：获取正常的HTTP网络流量的内容，对获取到的正常的HTTP网络流量的内容进行分词，得到正常的HTTP网络流量的正常词集；进入步骤(3)；

步骤(2)：获取恶意的HTTP网络流量的内容，对获取到的恶意的HTTP网络流量的内容进行分词，得到恶意的HTTP网络流量的恶意词集；进入步骤(4)；

步骤(3)：对正常的HTTP网络流量的正常词集进行单词过滤，按照自定义的过滤规则粗粒度地过滤掉与恶意软件的检测无关的单词；进入步骤(2)；

步骤(4)：对恶意的HTTP网络流量的恶意词集进行单词过滤，按照自定义的过滤规则粗粒度地过滤掉与恶意软件的检测无关的单词；进入步骤(5)；

步骤(5)：将步骤(3)过滤后得到的正常词集和步骤(4)过滤后得到的恶意词集进行汇总得到第一汇总词集，利用每个单词在步骤(3)过滤后得到的正常词集和步骤(4)过滤后得到的恶意词集中出现的频率，计算卡方值；

步骤(6)：利用卡方检验对第一汇总词集进行细粒度地单词过滤，利用卡方值从第一汇总词集中挑选出恶意单词，组成恶意网络流量词库。

所述步骤(1)的步骤为：

步骤(1-1)：正常流内容获取，使用T-shark命令将正常网络流量文件中的每一条HTTP网络流的流内容写入到对应的文本文档中；

步骤(1-2)：利用特殊符号对文本文档中的内容进行分词处理，得到HTTP网络流量的正常词集。

所述特殊符号，包括：逗号、冒号、分号、&、百分号、等号和空格。

所述T-shark命令是：“tshark–r网络流量文件名–q–z\”follow,tcp,ascii,o\”>文本文档名”。

所述正常网络流量文件是：正常app因为连接网络而产生的网络流量文件。

所述步骤(2)的步骤为：

步骤(2-1)：恶意流内容获取，使用T-shark命令将恶意网络流量文件中的每一条HTTP网络流的流内容写入到对应的文本文档中；

步骤(2-2)：利用特殊符号将每个保存恶意流内容的文本文件进行分词处理，得到恶意的HTTP网络流量的恶意词集。

所述恶意网络流量文件是：恶意app因为连接网络而产生的网络流量文件。

所述步骤(3)的步骤为：

步骤(3-1)：遍历正常的HTTP网络流量的正常词集中的每个单词，过滤掉全部是数字的单词；

步骤(3-2)：遍历正常的HTTP网络流量的正常词集中的每个单词，过滤掉在每条流中出现频率超过设定阈值的单词；

步骤(3-3)：遍历正常的HTTP网络流量的正常词集中的每个单词，过滤掉停用词。

所述步骤(3-2)中出现频率超过设定阈值的单词包括：host、request-method和request-encoding；

所述步骤(3-3)中停用词包括：the,a,is和this。

所述步骤(4)的步骤为：

步骤(4-1)：遍历恶意的HTTP网络流量的恶意词集中的每个单词，过滤掉全部是数字的单词；

步骤(4-2)：遍历恶意的HTTP网络流量的恶意词集中的每个单词，过滤掉在每条流中出现频率超过设定阈值的单词；

步骤(4-3)：遍历恶意的HTTP网络流量的恶意词集中的每个单词，过滤掉停用词。

所述步骤(4-2)中出现频率超过设定阈值的单词包括：host、request-method和request-encoding；

所述步骤(4-3)中停用词包括：the、a、is和this。

所述步骤(5)的步骤为：

步骤(5-1)：将正常的HTTP网络流量的正常词集和恶意的HTTP网络流量的恶意词集进行整合，组合成第一汇总词集；

步骤(5-2)：计算第一汇总词集中每个单词的在不同类别下出现的次数：即统计第一汇总词集中每个单词分别在恶意词集中出现的次数和在正常词集中出现的次数；

步骤(5-3)：归一化：对步骤(5-2)得到的统计次数进行归一化处理；

步骤(5-4)：卡方检验：利用每个单词在不同类别的单词集中出现的归一化之后的数值，根据卡方公式计算每个单词的得分，卡方公式如下：

其中，χ²(t,c)指的是特征t(一个单词)和类别c(恶意)之间的卡方值，χ²(t,c)值越大，说明特征t对类别c的表征程度就越大，特征t在类别c中就越有意义。

是指特征t和类别c共同出现的次数，

是指假设特征t和类别c相互独立时，两者共同出现的期望次数，e_t和e_c的值都属于(0,1)的集合中，即如果类别c或者特征t出现记作1，如果类别c或特征t没有出现记作0。

所述步骤(6)的步骤为：

步骤(6-1)：设定分数的阈值或者是设定得分排序排在前K位的K值；

步骤(6-2)：遍历第一汇总词集中的每个单词，判断单词遍历是否结束；若是，就结束；若否，就进入步骤(6-3)；

步骤(6-3)：判断当前单词的得分是否大于阈值或者排在前K位；如果当前单词的得分小于阈值或者没有排在前K位，则忽略这个单词；如果当前单词的得分大于阈值或者排在前K位，进入步骤(6-4)；

步骤(6-4)：判断当前单词是否存在于恶意词集中；如果当前单词不存在于恶意词集中，则忽略这个单词；如果当前单词存在于恶意词集中，则将当前单词加入到恶意流量词库中；当遍历完所有的单词之后，恶意网络流量词库建立完成。

一种恶意网络流量词库的建立系统，包括：

第一分词单元：获取正常的HTTP网络流量的内容，对获取到的正常的HTTP网络流量的内容进行分词，得到正常的HTTP网络流量的正常词集；进入第一过滤单元；

第二分词单元：获取恶意的HTTP网络流量的内容，对获取到的恶意的HTTP网络流量的内容进行分词，得到恶意的HTTP网络流量的恶意词集；进入第二过滤单元；

第一过滤单元：对正常的HTTP网络流量的正常词集进行单词过滤，按照自定义的过滤规则粗粒度地过滤掉与恶意软件的检测无关的单词；进入第二分词单元；

第二过滤单元：对恶意的HTTP网络流量的恶意词集进行单词过滤，按照自定义的过滤规则粗粒度地过滤掉与恶意软件的检测无关的单词；进入汇总单元；

汇总单元：将第一过滤单元过滤后得到的正常词集和第二过滤单元过滤后得到的恶意词集进行汇总得到第一汇总词集，利用每个单词在第一过滤单元过滤后得到的正常词集和第二过滤单元过滤后得到的恶意词集中出现的次数，计算卡方值；

卡方检验单元：利用卡方检验对第一汇总词集进行细粒度地单词过滤，利用卡方值从第一汇总词集中挑选出恶意单词，组成恶意网络流量词库。

所述汇总单元包括：

整合模块：将正常的HTTP网络流量的正常词集和恶意的HTTP网络流量的恶意词集进行整合，组合成第一汇总词集；

计算模块：计算第一汇总词集中每个单词的词频：即统计第一汇总词集中每个单词分别在恶意词集中出现的次数和在正常词集中出现的次数；

归一化模块：对得到的统计次数进行归一化处理；

卡方检验模块：利用每个单词在不同类别的单词集中出现次数的归一化之后的数值，根据卡方公式计算每个单词的得分。

本发明的有益效果：

(1)本发明对正常HTTP网络流和恶意HTTP网络流的流内容进行分词处理，获取了正常流量产生的词集和和恶意流量产生的词集。

(2)本发明建立的恶意网络流量词库能够应用到恶意软件检测中去，这个恶意网络流量词库可以起到与恶意代码库相似的功能。

(3)这个恶意网络流量词库可以不断更新，不断扩充。

(4)步骤(5-3)的归一化处理能够有效防止因为正常流词集和恶意流词集的规模不一致造成的偏差。

附图说明

图1为本发明的方法流程图；

图2为本发明的详细方法流程图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

一种恶意网络流量词库的建立方法具体工作过程为：

(1)流内容提取，获取正常的HTTP网络流量的流内容和恶意的HTTP网络流量的流内容，并以HTTP流的单位写入到每个txt文件中，即每条流的流内容单独写入一个txt文档，这个txt文档以HTTP流的名字进行命名，便于网络流内容与文档进行关联。

(2)使用特殊字符或者标点符号进行流内容的分词。即将每个txt文档中的流内容变成一个单词集。注意这里的单词可能并不是出现在英语词典中的单词，它可能仅仅是某个英语单词的缩写或者仅仅是几个字母的组合，我们这里都定义为单词。

(3)过滤模块，对所有单词执行过滤操作，移除掉与恶意软件的检测无关或对恶意软件帮助很小的单词。

(4)卡方检验，利用每个单词在两种类型(正常和恶意)的词集中出现的频率，计算卡方值。

(5)利用卡方值，挑选出与恶意类别最相关的单词组成恶意网络流量词库。

为了更好的理解本发明，以下给出了本发明更为详细的说明：

图1为本发明实现一种恶意网络流量词库的建立方法总架构图，包括：

步骤100，获得正常流量的流内容组成的词集；

步骤101，获得恶意流量的流内容组成的词集；

步骤102，使用规则过滤器对正常流量的流内容组成的词集进行过滤；

步骤103，使用规则过滤器对恶意流量的流内容组成的词集分别进行过滤；

步骤104，使用卡方检验对词集进行过滤；

步骤105，最终得到恶意网络流量词库。

图2为本发明实现一种恶意网络流量词库建立方法的流程图，该方法包括：

步骤200，正常流内容获取，利用T-Shark命令“tshark–r网络流量文件名–q–z\”follow,tcp,ascii,o\”>文本文档名”提取正常app产生的流量中的每一条HTTP网络流，并将每条流的流内容写入到一个单独的txt文件中。

步骤201，恶意流内容获取，利用T-Shark命令“tshark–r网络流量文件名–q–z\”follow,tcp,ascii,o\”>文本文档名”提取恶意app产生的流量中的每一条网络流。并将每条流的流内容写入到一个单独的txt文件中。

步骤202，利用特殊符号(，：；&％＝空格)对每个txt文件中保存的正常流内容进行分词处理，处理之后每条正常HTTP流将变成一个单词集合。

步骤203，利用特殊符号(，：；&％＝空格)对每个txt文件中保存的恶意流内容进行分词处理，处理之后每条恶意HTTP流将变成一个单词集合。

步骤204，全数字过滤器，遍历正常网络流生成的单词集合中的每个单词，过滤掉全数字的单词。

步骤205，高频常见词过滤器，遍历正常网络流生成的单词集合中的每个单词，过滤掉那些高频的但是几乎出现在每条流中的单词，如host,request-method,request-encoding等等。

步骤206，停用词过滤器，遍历正常网络流生成的单词集合中的每个单词，过滤掉停用词，即常见的无意义的词汇，如：the,a,is,this等。

步骤207，全数字过滤器，与步骤204类似，不过处理的是恶意流量产生的单词集合。

步骤208，高频常见词过滤器，与步骤205类似，不过处理的是恶意流量产生的单词集合。

步骤209，停用词过滤器，与步骤206类似，不过处理的是恶意流量产生的单词集合。

步骤210，将正常的HTTP网络流量的正常词集和恶意的HTTP网络流量的恶意词集进行整合，组合成第一汇总词集；

步骤211，计算每个单词的词频：统计第一汇总词集中每个单词分别在恶意词集中出现的次数和在正常词集中出现的次数；

步骤212，归一化，对步骤211得到的统计次数进行归一化处理。防止因为正常流词集和恶意流词集的规模不一致造成的偏差。

步骤213，卡方检验，利用每个单词在不同类别的单词集中出现次数的归一化之后的数值，根据卡方检验公式计算每个单词的得分。

步骤214，设定分数的阈值或者是设定得分排序排在前K位的K值。

步骤215，遍历第一汇总词集合中的每个单词，判断单词遍历条件是否结束，即是否完成了对所有单词的遍历。

步骤216，判断当前单词的得分是否大于阈值或者排在前K位。

步骤217，如果当前单词的得分小于阈值或者没有排在前K位，则忽略这个单词。

步骤218，如果当前单词的得分大于阈值或者排在了前K位，接着判断该单词是否存在于恶意的单词集合中。

步骤219，如果当前单词不存在恶意的单词集合中，即此单词来自正常流单词集合，则忽略这个单词。

步骤220如果当前单词存在恶意的单词集合中，则将该单词加入到恶意网络流量词库中。

当遍历完了所有的单词之后，恶意网络流量词库也建立完成了。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种恶意网络流量词库的建立方法，其特征是，包括如下步骤：

所述步骤(1)的步骤为：

步骤(1-2)：利用特殊符号对文本文档中的内容进行分词处理，得到HTTP网络流量的正常词集；

所述步骤(2)的步骤为：

步骤(2-2)：利用特殊符号将每个保存恶意流内容的文本文件进行分词处理，得到恶意的HTTP网络流量的恶意词集；

所述步骤(3)的步骤为：

步骤(3-3)：遍历正常的HTTP网络流量的正常词集中的每个单词，过滤掉停用词；

所述步骤(4)的步骤为：

步骤(4-3)：遍历恶意的HTTP网络流量的恶意词集中的每个单词，过滤掉停用词；

所述步骤(5)的步骤为：

步骤(5-2)：计算第一汇总词集中每个单词的词频：统计第一汇总词集中每个单词分别在恶意词集中出现的次数和在正常词集中出现的次数；

步骤(5-4)：卡方检验：利用每个单词在不同类别的单词集中出现的归一化之后的数值，根据卡方检验公式计算每个单词的得分；

步骤(6)：利用卡方检验对第一汇总词集进行细粒度地单词过滤，利用卡方值从第一汇总词集中挑选出恶意单词，组成恶意网络流量词库；所述步骤(6)的步骤为：

2.如权利要求1所述的方法，其特征是，卡方检验公式如下：

其中，χ²(t,c)指的是特征t和类别c之间的卡方值，χ²(t,c)值越大，说明特征t对类别c的表征程度就越大，特征t在类别c中就越有意义；

是指特征t和类别c共同出现的次数，

是指假设特征t和类别c相互独立时，两者共同出现的期望次数e_t和e_c的值都属于(0,1)的集合中，即如果类别c或者特征t出现记作1，如果类别c或特征t没有出现记作0。

3.如权利要求1所述的一种恶意网络流量词库的建立方法所应用的系统，其特征是，包括：

汇总单元：将第一过滤单元过滤后得到的正常词集和第二过滤单元过滤后得到的恶意词集进行汇总得到第一汇总词集，利用每个单词在第一过滤单元过滤后得到的正常词集和第二过滤单元过滤后得到的恶意词集中出现的频率，计算卡方值；

4.如权利要求3所述的系统，其特征是，所述汇总单元包括：

计算模块：计算第一汇总词集中每个单词的词频：统计第一汇总词集中每个单词分别在恶意词集中出现的次数和在正常词集中出现的次数；

归一化模块：对得到的统计次数进行归一化处理；

卡方检验模块：利用每个单词在不同类别的单词集中出现的归一化之后的数值，根据卡方检验公式计算每个单词的得分。