CN111641599A

CN111641599A - 一种VoIP网络流量所属平台的识别方法

Info

Publication number: CN111641599A
Application number: CN202010394712.1A
Authority: CN
Inventors: 张震; 刘发强; 孙旭东; 倪善金; 褚洪岩; 张之含; 刘瑶
Original assignee: EB INFORMATION TECHNOLOGY Ltd; National Computer Network and Information Security Management Center
Current assignee: Xinxun Digital Technology Hangzhou Co ltd; National Computer Network and Information Security Management Center
Priority date: 2020-05-11
Filing date: 2020-05-11
Publication date: 2020-09-08
Anticipated expiration: 2040-05-11
Also published as: CN111641599B

Abstract

一种VoIP网络流量所属平台的识别方法，包括：根据流量特征从流量数据中过滤出VoIP流量，并根据五元组信息对VoIP流量进行拆分，生成新的流量文件；识别每个流量文件中的上下行流量，提取和计算上行、下行、合并流量的特征指标，并构成每个流量文件的特征向量；使用随机森林模型进行建模，构建VoIP平台识别模型，输入是由多个流量文件的特征向量构成的特征向量矩阵，输出是多个流量文件分别对应的VoIP平台标签；将待识别的多个流量文件的特征向量构成的特征向量矩阵输入至VoIP平台识别模型，并获得每个待识别的流量文件分别对应的VoIP平台标签。本发明属于信息技术领域，能有效识别加密后的VoIP流量及其平台归属。

Description

一种VoIP网络流量所属平台的识别方法

技术领域

本发明一种VoIP网络流量所属平台的识别方法，属于信息技术领域。

背景技术

近年来，随着VoIP领域技术的长足发展，越来越多的通话业务由传统的电信网领域转移到VoIP。现已发现当前网络流量中存在大量的有害话音，经由VoIP网关和互联网发起的非法 VoIP呼叫已经成为重要渠道。由于组网灵活、资费低、难以溯源，VoIP已经成为境内外不法分子实施不法活动的重要手段。

为了迎合市场需求，部分VoIP服务提供商在公开协议基础上进行了修改并进行加密，使得VoIP流量不能被有效解析。而目前的VoIP流量识别方法也仅针对明文的SIP及H.323协议流量进行识别和检测。根据有关渠道反馈，目前市场上的加密VoIP平台已经占据市场的接近 50％份额，而现有基于明文的VoIP流量识别方法仅能识别VOS话务中的不到1％，无法在平台采取加密配置的前提下有效识别VoIP流量及其平台归属。由此造成的信息安全隐患对于我国监管VoIP流量十分不利。

因此，如何有效识别加密后的VoIP流量及其平台归属，已经成为技术人员普遍关注的技术问题。

发明内容

有鉴于此，本发明的目的是提供一种VoIP网络流量所属平台的识别方法，能有效识别加密后的VoIP流量及其平台归属。

为了达到上述目的，本发明提供了一种VoIP网络流量所属平台的识别方法，包括有：

步骤一、根据流量特征，从流量数据中过滤出VoIP流量，并根据五元组信息对VoIP流量进行拆分，从而生成新的流量文件；

步骤二、识别每个流量文件中的上下行流量，提取和计算上行、下行、合并流量的特征指标，并由所有特征指标构成每个流量文件的特征向量；

步骤三、使用随机森林模型进行建模，构建VoIP平台识别模型，所述VoIP平台识别模型的输入是由多个流量文件的特征向量构成的特征向量矩阵，输出是多个流量文件分别对应的VoIP平台标签；

步骤四、将待识别的多个流量文件的特征向量构成的特征向量矩阵输入至VoIP平台识别模型，并获得每个待识别的流量文件分别对应的VoIP平台标签。

与现有技术相比，本发明的有益效果是：本发明针对主流的加密VoIP服务数据，通过流量拆分及过滤、流量包特征提取、流量时间流特征提取、随机森林模型建模，并采用独创的模型筛选体系，建立了一套基于VoIP加密流量特征的VoIP网络流量所属平台的识别方法，从而可以实现对VoIP有害话音的有效监管。

附图说明

图1是本发明一种VoIP网络流量所属平台的识别方法的流程图。

图2是图1步骤一的具体步骤流程图。

图3是图1步骤二的具体步骤流程图。

图4是对步骤三中的VoIP平台识别模型进行训练的具体步骤流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明作进一步的详细描述。

如图1所示，本发明一种VoIP网络流量所属平台的识别方法，包括有：

流量特征可以包括但不限于：协议、端口、流量包大小、地址，五元组信息包括有：源端口、源地址、目的端口、目的地址、协议；

如图2所示，图1步骤一可以进一步包括有：

步骤11、从流量数据中剔除TCP和UDP协议之外的流量，即过滤出VoIP流量；

步骤12、按时间顺序正序排列VoIP流量中的所有pcap包，从而构成pcap包序列，并提取每个pcap包的五元组信息和传输起始时间；

步骤13、提取pcap包序列中的第一个pcap包，并为第一个pcap包挑选出其所有同质 pcap包：读取第一个pcap包的传输起始时间t₀，并设置第一个pcap包的同质时间区间：[t₀，t₀+T]，然后从pcap包序列中挑选传输起始时间在第一个pcap包的同质时间区间范围内、且五元组信息与第一个pcap包的五元组信息相对应的所有pcap包，所挑选出的pcap包即是第一个pcap包的同质pcap包，其中，T可以根据实际业务需要而设置，例如5秒，五元组信息与第一个pcap包的五元组信息相对应是指五元组信息一致、或者五元组中的源与目的地址及端口对调后的信息一致；

步骤14、将第一个pcap包和其所有同质pcap包合并存储为一个新的流量文件，并从pcap 包序列中剔除第一个pcap包和其所有同质pcap包；

步骤15、判断pcap包序列中是否还存在有pcap包？如果是，则继续步骤13；如果否，则本流程结束。

如图3所示，图1步骤二可以进一步包括有：

步骤21、逐一读取流量文件中的每个pcap包，并根据所读取pcap包的源地址和目的地址来判断所读取pcap包是上行或下行流量：当所读取pcap包的源地址为本地地址、且目的地址为远程地址，则所读取pcap包是上行流量，当所读取pcap包的源地址为远程地址、且目的地址为本地地址，则所读取pcap包是下行流量，若两者皆不符合，则所读取pcap包是无效流量，从流量文件中剔除所读取pcap包；

步骤22、根据上、下行流量分别对应的pcap包，计算上行、下行和合并流量的特征指标，特征指标可以包括但不限于：本地IP、对端IP、本地端口、对端端口、协议类型、流长度、流开始时间、流结束时间、流持续时间、包时间间隔的统计指标、包长度的统计指标、包到达速率、传输码率、包头部总长度占比、包长度时间序列的特征值，上述所有特征指标均可以针对上行、下行和合并流量分别计算获得。其中，本地IP、对端IP、本地端口、对端端口、协议类型这些特征指标可以直接提取，其他特征指标的计算方法如下：

1、流长度：流量文件中pcap包的数量；

2、流开始时间：流量文件中最早的pcap包传输时间；

3、流结束时间：流量文件中最晚的pcap包传输时间；

4、流持续时间：流结束时间和流开始时间的差值；

5、包时间间隔的统计指标：包时间间隔是将pcap包按传输时间排列后，后一个包的传输时间与前一个包的传输时间的差值，其统计指标包括平均值、最大值、最小值和标准差；

6、包长度的统计指标：包长度为pcap包的数据位数(以字节为单位)，其统计指标包括总和、平均值、最小值、最大值和标准差；

7、包到达速率：流持续时间和流长度的比值；

8、传输码率：包长度的总和除以流持续时间；

9、包头部总长度占比：包头部总长度为pcap包头部的数据位数(以字节为单位)之和，包头部总长度占比为包头部总长度除以包长度总和；

10、包长度时间序列的特征值：提取每个pcap包的传输时间和包长度，构建包长度时间序列：{x(t₁)、x(t₂)、…、x(t_n)}，其中，n是pcap包总数，t₁、t₂、…、t_n分别是按照时间先后次序排列的所有pcap包的传输时间，x(t_i)是t_i时间节点的pcap包长度，i∈[1，n]，包长度时间序列的特征值可以包括但不限于：自相关特征、ARCH值、二值化均值、穿插点数、圆内占比、熵、自相关最小值时间、首次零点位、最大行程长度、波动特征、异质性、直方图众数、光滑系数、Hurst指数、块度，其中：

(1)自相关特征：包长度时间序列与其自身在不同时间节点的互相关特征；

(2)ARCH值：包长度时间序列自回归条件异方差模型的统计量；

(3)二值化均值：将包长度时间序列二值化(0,1)后的平均值；

(4)穿插点数：包长度时间序列穿过均值线的次数；

(5)圆内占比：二维嵌入空间中落入内切圆内的包占比；

(6)熵：包长度时间序列的信息熵；

(7)自相关最小值时间：包序列自相关系数最小值第一次出现的时间；

(8)首次零点位：自相关函数首次取零所对应的包长度时间序列位置；

(9)最大行程长度：将包长度时间序列分为M等份并计算每份的最大行程长度；

(10)波动特征：将包长度时间序列拟合一阶多项式后的值域；

(11)异质性：包长度时间序列白化后的ARCH值；

(12)直方图众数：包长度时间序列按直方图排列后的众数；

(13)光滑系数：根据Holt的线性趋势算法估计包长度时间序列的光滑参数；

(14)Hurst指数：反映包长度时间序列长期记忆性的指标；

(15)块度：将包长度时间序列划分时间窗口后计算各窗口方差的方差。

步骤三可以使用十折验证和网格搜索的方式进行模型参数的自动调优，调优参数可以包括但不限于：树数目、样本平衡方式、分叉标准、叶子最小样本数、分叉最小样本数，模型参数打分的方法为基于准确率、精准率、召回率、F1值、ROC曲线面积的打分体系，这样，针对多平台的分类识别设计了消除样本不平衡性的修正机制，并基于VOIP平台流量识别的实际应用场景赋予不同评估指标不同的权重。如图4所示，对步骤三的VoIP平台识别模型进行训练，可以进一步包括有：

步骤31、读取由所有流量文件样本的特征向量构成的特征向量矩阵及每个流量文件样本对应的VoIP平台标签；

步骤32、打乱特征向量矩阵中样本行的排列顺序，随机抽取30％的样本作为测试集，其余作为训练集；

步骤33、将训练集随机划分为十份样本集，每份中的VoIP平台标签比例与全部训练集中的VoIP平台标签比例保持一致，并对十份样本集进行编号，设置j＝1；

步骤34、选取除j号样本集外的全部其他样本集作为模型调参的输入数据；

步骤35、设置随机森林模型参数及其调优取值范围如下：

(1)树数目：500、1000，

(2)样本平衡方式：平衡、非平衡，

(3)分叉标准：Gini系数、熵，

(4)叶子最小样本数：1、2、3、4、5，

(5)分叉最小样本数：2、3、4、5、6、7、8、9、10；

步骤36、使用网格搜索方法，枚举步骤35中的全部参数并建模，预测j号样本集中所有样本对应的VoIP平台标签，保留全部枚举参数及其对应的预测结果；

步骤37、将j加1，并判断j是否大于10？如果否，则转向步骤34；如果是，则继续下一步；

步骤38、将所有样本的全部预测结果与实际VoIP平台标签比对，使用多个评估指标项对所有枚举参数及其对应模型进行评分，从而获得每个枚举参数及其对应模型在不同评估指标项下的得分，评估指标项可以包括：

(1)平衡准确率：基于VoIP平台标签在总体中的占比，使用其倒数作为各VoIP平台样本的权重，计算全部VoIP平台样本准确率的加权平均值；

(2)精准率均值：对每类VoIP平台标签，使用二分类(该标签对应其他全部标签)方式计算精准率，最后取平均值；

(3)召回率均值：对每类VoIP平台标签，使用二分类(该标签对应其他全部标签)方式计算召回率，最后取平均值；

(4)F1值均值：对每类VoIP平台标签，使用二分类(该标签对应其他全部标签)方式计算F1值，最后取平均值；

(5)ROC曲线面积均值：对所有VoIP平台标签进行排列组合，对每对标签生成ROC曲线，计算曲线下面积，最后取所有标签对面积的平均值；

步骤39、分别在每个评估指标项下对所有枚举参数及其对应模型的得分按分值从高到低的次序进行排序，然后计算每个枚举参数及其对应模型的总评分：

其中，score_k是第k个枚举参数及其对应模型的总评分，N是总样本数，Rank_k(1)、Rank_k(2)、 Rank_k(3)、Rank_k(4)、Rank_k(5)分别是第k个枚举参数及其对应模型在平衡准确率、精准率均值、召回率均值、F1值均值、ROC曲线面积均值下的排序名次，最后挑选总评分最高的枚举参数及其对应模型作为训练好的VoIP平台识别模型。本发明针对VOIP平台识别的具体场景，为不同评估指标项设置了不同的权重：平衡准确率的权重为1、精准率均值的权重为2、召回率均值的权重为0.75、F1值均值的权重为1、ROC曲线面积均值的权重为1。

本发明还可以进一步使用测试集对VoIP平台识别模型的效果进行评估，计算每个VoIP 平台各自的模型识别效果的评估指标，当其中一个VoIP平台的模型识别效果的评估指标低于阈值时，则表示该VoIP平台流量数据可能存在异常，进行预警，评估指标可以包括但不限于：准确率、精准率、召回率、F1值、ROC曲线面积。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种VoIP网络流量所属平台的识别方法，其特征在于，包括有：

2.根据权利要求1所述的方法，其特征在于，步骤一中的流量特征包括但不限于：协议、端口、流量包大小、地址，五元组信息包括有：源端口、源地址、目的端口、目的地址、协议。

3.根据权利要求1所述的方法，其特征在于，步骤一进一步包括有：

步骤13、提取pcap包序列中的第一个pcap包，并为第一个pcap包挑选出其所有同质pcap包：读取第一个pcap包的传输起始时间t₀，并设置第一个pcap包的同质时间区间：[t₀，t₀+T]，然后从pcap包序列中挑选传输起始时间在第一个pcap包的同质时间区间范围内、且五元组信息与第一个pcap包的五元组信息相对应的所有pcap包，所挑选出的pcap包即是第一个pcap包的同质pcap包，其中，五元组信息与第一个pcap包的五元组信息相对应是指五元组信息一致、或者五元组中的源与目的地址及端口对调后的信息一致；

步骤14、将第一个pcap包和其所有同质pcap包合并存储为一个新的流量文件，并从pcap包序列中剔除第一个pcap包和其所有同质pcap包；

步骤15、判断pcap包序列中是否还存在有pcap包，如果是，则继续步骤13；如果否，则本流程结束。

4.根据权利要求1所述的方法，其特征在于，步骤二进一步包括有：

步骤22、根据上、下行流量分别对应的pcap包，计算上行、下行和合并流量的特征指标，特征指标包括但不限于：本地IP、对端IP、本地端口、对端端口、协议类型、流长度、流开始时间、流结束时间、流持续时间、包时间间隔的统计指标、包长度的统计指标、包到达速率、传输码率、包头部总长度占比、包长度时间序列的特征值，上述所有特征指标均针对上行、下行和合并流量分别计算获得。

5.根据权利要求4所述的方法，其特征在于，步骤22中，本地IP、对端IP、本地端口、对端端口、协议类型这些特征指标直接提取，其他特征指标的计算方法如下：

流长度：流量文件中pcap包的数量；

流开始时间：流量文件中最早的pcap包传输时间；

流结束时间：流量文件中最晚的pcap包传输时间；

流持续时间：流结束时间和流开始时间的差值；

包时间间隔的统计指标：包时间间隔是将pcap包按传输时间排列后，后一个包的传输时间与前一个包的传输时间的差值，其统计指标包括平均值、最大值、最小值和标准差；

包长度的统计指标：包长度为pcap包的数据位数，其统计指标包括总和、平均值、最小值、最大值和标准差；

包到达速率：流持续时间和流长度的比值；

传输码率：包长度的总和除以流持续时间；

包头部总长度占比：包头部总长度为pcap包头部的数据位数之和，包头部总长度占比为包头部总长度除以包长度总和；

包长度时间序列的特征值：提取每个pcap包的传输时间和包长度，构建包长度时间序列：{x(t₁)、x(t₂)、…、x(t_n)}，其中，n是pcap包总数，t₁、t₂、…、t_n分别是按照时间先后次序排列的所有pcap包的传输时间，x(t_i)是t_i时间节点的pcap包长度，i∈[1，n]。

6.根据权利要求5所述的方法，其特征在于，包长度时间序列的特征值包括但不限于：自相关特征、ARCH值、二值化均值、穿插点数、圆内占比、熵、自相关最小值时间、首次零点位、最大行程长度、波动特征、异质性、直方图众数、光滑系数、Hurst指数、块度，其中：

(2)ARCH值：包长度时间序列自回归条件异方差模型的统计量；

(3)二值化均值：将包长度时间序列二值化(0,1)后的平均值；

(4)穿插点数：包长度时间序列穿过均值线的次数；

(5)圆内占比：二维嵌入空间中落入内切圆内的包占比；

(6)熵：包长度时间序列的信息熵；

(10)波动特征：将包长度时间序列拟合一阶多项式后的值域；

(11)异质性：包长度时间序列白化后的ARCH值；

(12)直方图众数：包长度时间序列按直方图排列后的众数；

(14)Hurst指数：反映包长度时间序列长期记忆性的指标；

7.根据权利要求1所述的方法，其特征在于，步骤三使用十折验证和网格搜索的方式进行模型参数的自动调优，调优参数包括但不限于：树数目、样本平衡方式、分叉标准、叶子最小样本数、分叉最小样本数，模型参数打分的方法为基于准确率、精准率、召回率、F1值、ROC曲线面积的打分体系。

8.根据权利要求7所述的方法，其特征在于，对步骤三的VoIP平台识别模型进行训练，进一步包括有：

步骤35、设置随机森林模型参数及其调优取值范围如下：

(1)树数目：500、1000，

(2)样本平衡方式：平衡、非平衡，

(3)分叉标准：Gini系数、熵，

(4)叶子最小样本数：1、2、3、4、5，

(5)分叉最小样本数：2、3、4、5、6、7、8、9、10；

步骤37、将j加1，并判断j是否大于10，如果否，则转向步骤34；如果是，则继续下一步；

步骤38、将所有样本的全部预测结果与实际VoIP平台标签比对，使用多个评估指标项对所有枚举参数及其对应模型进行评分，从而获得每个枚举参数及其对应模型在不同评估指标项下的得分，评估指标项包括：

(2)精准率均值：对每类VoIP平台标签，使用二分类方式计算精准率，最后取平均值；

(3)召回率均值：对每类VoIP平台标签，使用二分类方式计算召回率，最后取平均值；

(4)F1值均值：对每类VoIP平台标签，使用二分类方式计算F1值，最后取平均值；

其中，score_k是第k个枚举参数及其对应模型的总评分，N是总样本数，Rank_k(1)、Rank_k(2)、Rank_k(3)、Rank_k(4)、Rank_k(5)分别是第k个枚举参数及其对应模型在平衡准确率、精准率均值、召回率均值、F1值均值、ROC曲线面积均值下的排序名次，最后挑选总评分最高的枚举参数及其对应模型作为训练好的VoIP平台识别模型。

9.根据权利要求1所述的方法，其特征在于，还包括有：

使用测试集对VoIP平台识别模型的效果进行评估，计算每个VoIP平台各自的模型识别效果的评估指标，当其中一个VoIP平台的模型识别效果的评估指标低于阈值时，则进行预警，评估指标包括但不限于：准确率、精准率、召回率、F1值、ROC曲线面积。