CN111641599A - 一种VoIP网络流量所属平台的识别方法 - Google Patents

一种VoIP网络流量所属平台的识别方法 Download PDF

Info

Publication number
CN111641599A
CN111641599A CN202010394712.1A CN202010394712A CN111641599A CN 111641599 A CN111641599 A CN 111641599A CN 202010394712 A CN202010394712 A CN 202010394712A CN 111641599 A CN111641599 A CN 111641599A
Authority
CN
China
Prior art keywords
packet
flow
pcap
voip
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010394712.1A
Other languages
English (en)
Other versions
CN111641599B (zh
Inventor
张震
刘发强
孙旭东
倪善金
褚洪岩
张之含
刘瑶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xinxun Digital Technology Hangzhou Co ltd
National Computer Network and Information Security Management Center
Original Assignee
EB INFORMATION TECHNOLOGY Ltd
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by EB INFORMATION TECHNOLOGY Ltd, National Computer Network and Information Security Management Center filed Critical EB INFORMATION TECHNOLOGY Ltd
Priority to CN202010394712.1A priority Critical patent/CN111641599B/zh
Publication of CN111641599A publication Critical patent/CN111641599A/zh
Application granted granted Critical
Publication of CN111641599B publication Critical patent/CN111641599B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M7/00Arrangements for interconnection between switching centres
    • H04M7/006Networks other than PSTN/ISDN providing telephone service, e.g. Voice over Internet Protocol (VoIP), including next generation networks with a packet-switched transport layer
    • H04M7/0078Security; Fraud detection; Fraud prevention

Abstract

一种VoIP网络流量所属平台的识别方法,包括:根据流量特征从流量数据中过滤出VoIP流量,并根据五元组信息对VoIP流量进行拆分,生成新的流量文件;识别每个流量文件中的上下行流量,提取和计算上行、下行、合并流量的特征指标,并构成每个流量文件的特征向量;使用随机森林模型进行建模,构建VoIP平台识别模型,输入是由多个流量文件的特征向量构成的特征向量矩阵,输出是多个流量文件分别对应的VoIP平台标签;将待识别的多个流量文件的特征向量构成的特征向量矩阵输入至VoIP平台识别模型,并获得每个待识别的流量文件分别对应的VoIP平台标签。本发明属于信息技术领域,能有效识别加密后的VoIP流量及其平台归属。

Description

一种VoIP网络流量所属平台的识别方法
技术领域
本发明一种VoIP网络流量所属平台的识别方法,属于信息技术领域。
背景技术
近年来,随着VoIP领域技术的长足发展,越来越多的通话业务由传统的电信网领域转移 到VoIP。现已发现当前网络流量中存在大量的有害话音,经由VoIP网关和互联网发起的非法 VoIP呼叫已经成为重要渠道。由于组网灵活、资费低、难以溯源,VoIP已经成为境内外不法 分子实施不法活动的重要手段。
为了迎合市场需求,部分VoIP服务提供商在公开协议基础上进行了修改并进行加密,使 得VoIP流量不能被有效解析。而目前的VoIP流量识别方法也仅针对明文的SIP及H.323协议 流量进行识别和检测。根据有关渠道反馈,目前市场上的加密VoIP平台已经占据市场的接近 50%份额,而现有基于明文的VoIP流量识别方法仅能识别VOS话务中的不到1%,无法在平 台采取加密配置的前提下有效识别VoIP流量及其平台归属。由此造成的信息安全隐患对于我 国监管VoIP流量十分不利。
因此,如何有效识别加密后的VoIP流量及其平台归属,已经成为技术人员普遍关注的技 术问题。
发明内容
有鉴于此,本发明的目的是提供一种VoIP网络流量所属平台的识别方法,能有效识别加 密后的VoIP流量及其平台归属。
为了达到上述目的,本发明提供了一种VoIP网络流量所属平台的识别方法,包括有:
步骤一、根据流量特征,从流量数据中过滤出VoIP流量,并根据五元组信息对VoIP流 量进行拆分,从而生成新的流量文件;
步骤二、识别每个流量文件中的上下行流量,提取和计算上行、下行、合并流量的特征 指标,并由所有特征指标构成每个流量文件的特征向量;
步骤三、使用随机森林模型进行建模,构建VoIP平台识别模型,所述VoIP平台识别模 型的输入是由多个流量文件的特征向量构成的特征向量矩阵,输出是多个流量文件分别对应 的VoIP平台标签;
步骤四、将待识别的多个流量文件的特征向量构成的特征向量矩阵输入至VoIP平台识别 模型,并获得每个待识别的流量文件分别对应的VoIP平台标签。
与现有技术相比,本发明的有益效果是:本发明针对主流的加密VoIP服务数据,通过流 量拆分及过滤、流量包特征提取、流量时间流特征提取、随机森林模型建模,并采用独创的 模型筛选体系,建立了一套基于VoIP加密流量特征的VoIP网络流量所属平台的识别方法, 从而可以实现对VoIP有害话音的有效监管。
附图说明
图1是本发明一种VoIP网络流量所属平台的识别方法的流程图。
图2是图1步骤一的具体步骤流程图。
图3是图1步骤二的具体步骤流程图。
图4是对步骤三中的VoIP平台识别模型进行训练的具体步骤流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步的详细 描述。
如图1所示,本发明一种VoIP网络流量所属平台的识别方法,包括有:
步骤一、根据流量特征,从流量数据中过滤出VoIP流量,并根据五元组信息对VoIP流 量进行拆分,从而生成新的流量文件;
流量特征可以包括但不限于:协议、端口、流量包大小、地址,五元组信息包括有:源 端口、源地址、目的端口、目的地址、协议;
步骤二、识别每个流量文件中的上下行流量,提取和计算上行、下行、合并流量的特征 指标,并由所有特征指标构成每个流量文件的特征向量;
步骤三、使用随机森林模型进行建模,构建VoIP平台识别模型,所述VoIP平台识别模 型的输入是由多个流量文件的特征向量构成的特征向量矩阵,输出是多个流量文件分别对应 的VoIP平台标签;
步骤四、将待识别的多个流量文件的特征向量构成的特征向量矩阵输入至VoIP平台识别 模型,并获得每个待识别的流量文件分别对应的VoIP平台标签。
如图2所示,图1步骤一可以进一步包括有:
步骤11、从流量数据中剔除TCP和UDP协议之外的流量,即过滤出VoIP流量;
步骤12、按时间顺序正序排列VoIP流量中的所有pcap包,从而构成pcap包序列,并提 取每个pcap包的五元组信息和传输起始时间;
步骤13、提取pcap包序列中的第一个pcap包,并为第一个pcap包挑选出其所有同质 pcap包:读取第一个pcap包的传输起始时间t0,并设置第一个pcap包的同质时间区间:[t0,t0+T],然后从pcap包序列中挑选传输起始时间在第一个pcap包的同质时间区间范围内、 且五元组信息与第一个pcap包的五元组信息相对应的所有pcap包,所挑选出的pcap包即是 第一个pcap包的同质pcap包,其中,T可以根据实际业务需要而设置,例如5秒,五元组信 息与第一个pcap包的五元组信息相对应是指五元组信息一致、或者五元组中的源与目的地址 及端口对调后的信息一致;
步骤14、将第一个pcap包和其所有同质pcap包合并存储为一个新的流量文件,并从pcap 包序列中剔除第一个pcap包和其所有同质pcap包;
步骤15、判断pcap包序列中是否还存在有pcap包?如果是,则继续步骤13;如果否,则本流程结束。
如图3所示,图1步骤二可以进一步包括有:
步骤21、逐一读取流量文件中的每个pcap包,并根据所读取pcap包的源地址和目的地 址来判断所读取pcap包是上行或下行流量:当所读取pcap包的源地址为本地地址、且目的 地址为远程地址,则所读取pcap包是上行流量,当所读取pcap包的源地址为远程地址、且 目的地址为本地地址,则所读取pcap包是下行流量,若两者皆不符合,则所读取pcap包是 无效流量,从流量文件中剔除所读取pcap包;
步骤22、根据上、下行流量分别对应的pcap包,计算上行、下行和合并流量的特征指 标,特征指标可以包括但不限于:本地IP、对端IP、本地端口、对端端口、协议类型、流长度、流开始时间、流结束时间、流持续时间、包时间间隔的统计指标、包长度的统计指标、 包到达速率、传输码率、包头部总长度占比、包长度时间序列的特征值,上述所有特征指标 均可以针对上行、下行和合并流量分别计算获得。其中,本地IP、对端IP、本地端口、对端 端口、协议类型这些特征指标可以直接提取,其他特征指标的计算方法如下:
1、流长度:流量文件中pcap包的数量;
2、流开始时间:流量文件中最早的pcap包传输时间;
3、流结束时间:流量文件中最晚的pcap包传输时间;
4、流持续时间:流结束时间和流开始时间的差值;
5、包时间间隔的统计指标:包时间间隔是将pcap包按传输时间排列后,后一个包的传 输时间与前一个包的传输时间的差值,其统计指标包括平均值、最大值、最小值和标准差;
6、包长度的统计指标:包长度为pcap包的数据位数(以字节为单位),其统计指标包 括总和、平均值、最小值、最大值和标准差;
7、包到达速率:流持续时间和流长度的比值;
8、传输码率:包长度的总和除以流持续时间;
9、包头部总长度占比:包头部总长度为pcap包头部的数据位数(以字节为单位)之和, 包头部总长度占比为包头部总长度除以包长度总和;
10、包长度时间序列的特征值:提取每个pcap包的传输时间和包长度,构建包长度时间 序列:{x(t1)、x(t2)、…、x(tn)},其中,n是pcap包总数,t1、t2、…、tn分别是按照时间先后次序排列的所有pcap包的传输时间,x(ti)是ti时间节点的pcap包长度,i∈[1,n],包长度时间序列的特征值可以包括但不限于:自相关特征、ARCH值、二值化均值、穿插点数、圆内占比、熵、自相关最小值时间、首次零点位、最大行程长度、波动特征、异质性、直方图众 数、光滑系数、Hurst指数、块度,其中:
(1)自相关特征:包长度时间序列与其自身在不同时间节点的互相关特征;
(2)ARCH值:包长度时间序列自回归条件异方差模型的统计量;
(3)二值化均值:将包长度时间序列二值化(0,1)后的平均值;
(4)穿插点数:包长度时间序列穿过均值线的次数;
(5)圆内占比:二维嵌入空间中落入内切圆内的包占比;
(6)熵:包长度时间序列的信息熵;
(7)自相关最小值时间:包序列自相关系数最小值第一次出现的时间;
(8)首次零点位:自相关函数首次取零所对应的包长度时间序列位置;
(9)最大行程长度:将包长度时间序列分为M等份并计算每份的最大行程长度;
(10)波动特征:将包长度时间序列拟合一阶多项式后的值域;
(11)异质性:包长度时间序列白化后的ARCH值;
(12)直方图众数:包长度时间序列按直方图排列后的众数;
(13)光滑系数:根据Holt的线性趋势算法估计包长度时间序列的光滑参数;
(14)Hurst指数:反映包长度时间序列长期记忆性的指标;
(15)块度:将包长度时间序列划分时间窗口后计算各窗口方差的方差。
步骤三可以使用十折验证和网格搜索的方式进行模型参数的自动调优,调优参数可以包 括但不限于:树数目、样本平衡方式、分叉标准、叶子最小样本数、分叉最小样本数,模型 参数打分的方法为基于准确率、精准率、召回率、F1值、ROC曲线面积的打分体系,这样, 针对多平台的分类识别设计了消除样本不平衡性的修正机制,并基于VOIP平台流量识别的实 际应用场景赋予不同评估指标不同的权重。如图4所示,对步骤三的VoIP平台识别模型进行 训练,可以进一步包括有:
步骤31、读取由所有流量文件样本的特征向量构成的特征向量矩阵及每个流量文件样本 对应的VoIP平台标签;
步骤32、打乱特征向量矩阵中样本行的排列顺序,随机抽取30%的样本作为测试集,其 余作为训练集;
步骤33、将训练集随机划分为十份样本集,每份中的VoIP平台标签比例与全部训练集中 的VoIP平台标签比例保持一致,并对十份样本集进行编号,设置j=1;
步骤34、选取除j号样本集外的全部其他样本集作为模型调参的输入数据;
步骤35、设置随机森林模型参数及其调优取值范围如下:
(1)树数目:500、1000,
(2)样本平衡方式:平衡、非平衡,
(3)分叉标准:Gini系数、熵,
(4)叶子最小样本数:1、2、3、4、5,
(5)分叉最小样本数:2、3、4、5、6、7、8、9、10;
步骤36、使用网格搜索方法,枚举步骤35中的全部参数并建模,预测j号样本集中所有 样本对应的VoIP平台标签,保留全部枚举参数及其对应的预测结果;
步骤37、将j加1,并判断j是否大于10?如果否,则转向步骤34;如果是,则继续下一步;
步骤38、将所有样本的全部预测结果与实际VoIP平台标签比对,使用多个评估指标项对 所有枚举参数及其对应模型进行评分,从而获得每个枚举参数及其对应模型在不同评估指标 项下的得分,评估指标项可以包括:
(1)平衡准确率:基于VoIP平台标签在总体中的占比,使用其倒数作为各VoIP平台样 本的权重,计算全部VoIP平台样本准确率的加权平均值;
(2)精准率均值:对每类VoIP平台标签,使用二分类(该标签对应其他全部标签)方式计算精准率,最后取平均值;
(3)召回率均值:对每类VoIP平台标签,使用二分类(该标签对应其他全部标签)方式计算召回率,最后取平均值;
(4)F1值均值:对每类VoIP平台标签,使用二分类(该标签对应其他全部标签)方式计算F1值,最后取平均值;
(5)ROC曲线面积均值:对所有VoIP平台标签进行排列组合,对每对标签生成ROC曲线,计算曲线下面积,最后取所有标签对面积的平均值;
步骤39、分别在每个评估指标项下对所有枚举参数及其对应模型的得分按分值从高到低 的次序进行排序,然后计算每个枚举参数及其对应模型的总评分:
Figure BDA0002487073920000061
其中,scorek是第k个枚举参数及其对应模型的总评分,N是总样本数,Rankk(1)、Rankk(2)、 Rankk(3)、Rankk(4)、Rankk(5)分别是第k个枚举参数及其对应模型在平衡准确率、精准率 均值、召回率均值、F1值均值、ROC曲线面积均值下的排序名次,最后挑选总评分最高的枚 举参数及其对应模型作为训练好的VoIP平台识别模型。本发明针对VOIP平台识别的具体场 景,为不同评估指标项设置了不同的权重:平衡准确率的权重为1、精准率均值的权重为2、 召回率均值的权重为0.75、F1值均值的权重为1、ROC曲线面积均值的权重为1。
本发明还可以进一步使用测试集对VoIP平台识别模型的效果进行评估,计算每个VoIP 平台各自的模型识别效果的评估指标,当其中一个VoIP平台的模型识别效果的评估指标低于 阈值时,则表示该VoIP平台流量数据可能存在异常,进行预警,评估指标可以包括但不限于: 准确率、精准率、召回率、F1值、ROC曲线面积。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原 则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (9)

1.一种VoIP网络流量所属平台的识别方法,其特征在于,包括有:
步骤一、根据流量特征,从流量数据中过滤出VoIP流量,并根据五元组信息对VoIP流量进行拆分,从而生成新的流量文件;
步骤二、识别每个流量文件中的上下行流量,提取和计算上行、下行、合并流量的特征指标,并由所有特征指标构成每个流量文件的特征向量;
步骤三、使用随机森林模型进行建模,构建VoIP平台识别模型,所述VoIP平台识别模型的输入是由多个流量文件的特征向量构成的特征向量矩阵,输出是多个流量文件分别对应的VoIP平台标签;
步骤四、将待识别的多个流量文件的特征向量构成的特征向量矩阵输入至VoIP平台识别模型,并获得每个待识别的流量文件分别对应的VoIP平台标签。
2.根据权利要求1所述的方法,其特征在于,步骤一中的流量特征包括但不限于:协议、端口、流量包大小、地址,五元组信息包括有:源端口、源地址、目的端口、目的地址、协议。
3.根据权利要求1所述的方法,其特征在于,步骤一进一步包括有:
步骤11、从流量数据中剔除TCP和UDP协议之外的流量,即过滤出VoIP流量;
步骤12、按时间顺序正序排列VoIP流量中的所有pcap包,从而构成pcap包序列,并提取每个pcap包的五元组信息和传输起始时间;
步骤13、提取pcap包序列中的第一个pcap包,并为第一个pcap包挑选出其所有同质pcap包:读取第一个pcap包的传输起始时间t0,并设置第一个pcap包的同质时间区间:[t0,t0+T],然后从pcap包序列中挑选传输起始时间在第一个pcap包的同质时间区间范围内、且五元组信息与第一个pcap包的五元组信息相对应的所有pcap包,所挑选出的pcap包即是第一个pcap包的同质pcap包,其中,五元组信息与第一个pcap包的五元组信息相对应是指五元组信息一致、或者五元组中的源与目的地址及端口对调后的信息一致;
步骤14、将第一个pcap包和其所有同质pcap包合并存储为一个新的流量文件,并从pcap包序列中剔除第一个pcap包和其所有同质pcap包;
步骤15、判断pcap包序列中是否还存在有pcap包,如果是,则继续步骤13;如果否,则本流程结束。
4.根据权利要求1所述的方法,其特征在于,步骤二进一步包括有:
步骤21、逐一读取流量文件中的每个pcap包,并根据所读取pcap包的源地址和目的地址来判断所读取pcap包是上行或下行流量:当所读取pcap包的源地址为本地地址、且目的地址为远程地址,则所读取pcap包是上行流量,当所读取pcap包的源地址为远程地址、且目的地址为本地地址,则所读取pcap包是下行流量,若两者皆不符合,则所读取pcap包是无效流量,从流量文件中剔除所读取pcap包;
步骤22、根据上、下行流量分别对应的pcap包,计算上行、下行和合并流量的特征指标,特征指标包括但不限于:本地IP、对端IP、本地端口、对端端口、协议类型、流长度、流开始时间、流结束时间、流持续时间、包时间间隔的统计指标、包长度的统计指标、包到达速率、传输码率、包头部总长度占比、包长度时间序列的特征值,上述所有特征指标均针对上行、下行和合并流量分别计算获得。
5.根据权利要求4所述的方法,其特征在于,步骤22中,本地IP、对端IP、本地端口、对端端口、协议类型这些特征指标直接提取,其他特征指标的计算方法如下:
流长度:流量文件中pcap包的数量;
流开始时间:流量文件中最早的pcap包传输时间;
流结束时间:流量文件中最晚的pcap包传输时间;
流持续时间:流结束时间和流开始时间的差值;
包时间间隔的统计指标:包时间间隔是将pcap包按传输时间排列后,后一个包的传输时间与前一个包的传输时间的差值,其统计指标包括平均值、最大值、最小值和标准差;
包长度的统计指标:包长度为pcap包的数据位数,其统计指标包括总和、平均值、最小值、最大值和标准差;
包到达速率:流持续时间和流长度的比值;
传输码率:包长度的总和除以流持续时间;
包头部总长度占比:包头部总长度为pcap包头部的数据位数之和,包头部总长度占比为包头部总长度除以包长度总和;
包长度时间序列的特征值:提取每个pcap包的传输时间和包长度,构建包长度时间序列:{x(t1)、x(t2)、…、x(tn)},其中,n是pcap包总数,t1、t2、…、tn分别是按照时间先后次序排列的所有pcap包的传输时间,x(ti)是ti时间节点的pcap包长度,i∈[1,n]。
6.根据权利要求5所述的方法,其特征在于,包长度时间序列的特征值包括但不限于:自相关特征、ARCH值、二值化均值、穿插点数、圆内占比、熵、自相关最小值时间、首次零点位、最大行程长度、波动特征、异质性、直方图众数、光滑系数、Hurst指数、块度,其中:
(1)自相关特征:包长度时间序列与其自身在不同时间节点的互相关特征;
(2)ARCH值:包长度时间序列自回归条件异方差模型的统计量;
(3)二值化均值:将包长度时间序列二值化(0,1)后的平均值;
(4)穿插点数:包长度时间序列穿过均值线的次数;
(5)圆内占比:二维嵌入空间中落入内切圆内的包占比;
(6)熵:包长度时间序列的信息熵;
(7)自相关最小值时间:包序列自相关系数最小值第一次出现的时间;
(8)首次零点位:自相关函数首次取零所对应的包长度时间序列位置;
(9)最大行程长度:将包长度时间序列分为M等份并计算每份的最大行程长度;
(10)波动特征:将包长度时间序列拟合一阶多项式后的值域;
(11)异质性:包长度时间序列白化后的ARCH值;
(12)直方图众数:包长度时间序列按直方图排列后的众数;
(13)光滑系数:根据Holt的线性趋势算法估计包长度时间序列的光滑参数;
(14)Hurst指数:反映包长度时间序列长期记忆性的指标;
(15)块度:将包长度时间序列划分时间窗口后计算各窗口方差的方差。
7.根据权利要求1所述的方法,其特征在于,步骤三使用十折验证和网格搜索的方式进行模型参数的自动调优,调优参数包括但不限于:树数目、样本平衡方式、分叉标准、叶子最小样本数、分叉最小样本数,模型参数打分的方法为基于准确率、精准率、召回率、F1值、ROC曲线面积的打分体系。
8.根据权利要求7所述的方法,其特征在于,对步骤三的VoIP平台识别模型进行训练,进一步包括有:
步骤31、读取由所有流量文件样本的特征向量构成的特征向量矩阵及每个流量文件样本对应的VoIP平台标签;
步骤32、打乱特征向量矩阵中样本行的排列顺序,随机抽取30%的样本作为测试集,其余作为训练集;
步骤33、将训练集随机划分为十份样本集,每份中的VoIP平台标签比例与全部训练集中的VoIP平台标签比例保持一致,并对十份样本集进行编号,设置j=1;
步骤34、选取除j号样本集外的全部其他样本集作为模型调参的输入数据;
步骤35、设置随机森林模型参数及其调优取值范围如下:
(1)树数目:500、1000,
(2)样本平衡方式:平衡、非平衡,
(3)分叉标准:Gini系数、熵,
(4)叶子最小样本数:1、2、3、4、5,
(5)分叉最小样本数:2、3、4、5、6、7、8、9、10;
步骤36、使用网格搜索方法,枚举步骤35中的全部参数并建模,预测j号样本集中所有样本对应的VoIP平台标签,保留全部枚举参数及其对应的预测结果;
步骤37、将j加1,并判断j是否大于10,如果否,则转向步骤34;如果是,则继续下一步;
步骤38、将所有样本的全部预测结果与实际VoIP平台标签比对,使用多个评估指标项对所有枚举参数及其对应模型进行评分,从而获得每个枚举参数及其对应模型在不同评估指标项下的得分,评估指标项包括:
(1)平衡准确率:基于VoIP平台标签在总体中的占比,使用其倒数作为各VoIP平台样本的权重,计算全部VoIP平台样本准确率的加权平均值;
(2)精准率均值:对每类VoIP平台标签,使用二分类方式计算精准率,最后取平均值;
(3)召回率均值:对每类VoIP平台标签,使用二分类方式计算召回率,最后取平均值;
(4)F1值均值:对每类VoIP平台标签,使用二分类方式计算F1值,最后取平均值;
(5)ROC曲线面积均值:对所有VoIP平台标签进行排列组合,对每对标签生成ROC曲线,计算曲线下面积,最后取所有标签对面积的平均值;
步骤39、分别在每个评估指标项下对所有枚举参数及其对应模型的得分按分值从高到低的次序进行排序,然后计算每个枚举参数及其对应模型的总评分:
Figure FDA0002487073910000041
其中,scorek是第k个枚举参数及其对应模型的总评分,N是总样本数,Rankk(1)、Rankk(2)、Rankk(3)、Rankk(4)、Rankk(5)分别是第k个枚举参数及其对应模型在平衡准确率、精准率均值、召回率均值、F1值均值、ROC曲线面积均值下的排序名次,最后挑选总评分最高的枚举参数及其对应模型作为训练好的VoIP平台识别模型。
9.根据权利要求1所述的方法,其特征在于,还包括有:
使用测试集对VoIP平台识别模型的效果进行评估,计算每个VoIP平台各自的模型识别效果的评估指标,当其中一个VoIP平台的模型识别效果的评估指标低于阈值时,则进行预警,评估指标包括但不限于:准确率、精准率、召回率、F1值、ROC曲线面积。
CN202010394712.1A 2020-05-11 2020-05-11 一种VoIP网络流量所属平台的识别方法 Active CN111641599B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010394712.1A CN111641599B (zh) 2020-05-11 2020-05-11 一种VoIP网络流量所属平台的识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010394712.1A CN111641599B (zh) 2020-05-11 2020-05-11 一种VoIP网络流量所属平台的识别方法

Publications (2)

Publication Number Publication Date
CN111641599A true CN111641599A (zh) 2020-09-08
CN111641599B CN111641599B (zh) 2022-04-15

Family

ID=72331082

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010394712.1A Active CN111641599B (zh) 2020-05-11 2020-05-11 一种VoIP网络流量所属平台的识别方法

Country Status (1)

Country Link
CN (1) CN111641599B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114826735A (zh) * 2022-04-25 2022-07-29 国家计算机网络与信息安全管理中心 一种基于异构神经网络技术的VoIP恶意行为检测方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102904822A (zh) * 2012-10-22 2013-01-30 西安交通大学 VoIP网络流量的层次化识别方法
US20130117205A1 (en) * 2010-03-17 2013-05-09 Thales Method of identifying a protocol giving rise to a data flow
CN104102700A (zh) * 2014-07-04 2014-10-15 华南理工大学 一种面向因特网不平衡应用流的分类方法
CN105978760A (zh) * 2016-06-27 2016-09-28 桂林电子科技大学 一种基于C4.5决策树的VoIP流量在线识别方法
CN108737290A (zh) * 2018-05-11 2018-11-02 南开大学 基于负载映射与随机森林的非加密流量识别方法
CN109951444A (zh) * 2019-01-29 2019-06-28 中国科学院信息工程研究所 一种加密匿名网络流量识别方法
CN110111814A (zh) * 2019-05-20 2019-08-09 国家计算机网络与信息安全管理中心 网络类型识别方法及装置
CN110136749A (zh) * 2019-06-14 2019-08-16 苏州思必驰信息科技有限公司 说话人相关的端到端语音端点检测方法和装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130117205A1 (en) * 2010-03-17 2013-05-09 Thales Method of identifying a protocol giving rise to a data flow
CN102904822A (zh) * 2012-10-22 2013-01-30 西安交通大学 VoIP网络流量的层次化识别方法
CN104102700A (zh) * 2014-07-04 2014-10-15 华南理工大学 一种面向因特网不平衡应用流的分类方法
CN105978760A (zh) * 2016-06-27 2016-09-28 桂林电子科技大学 一种基于C4.5决策树的VoIP流量在线识别方法
CN108737290A (zh) * 2018-05-11 2018-11-02 南开大学 基于负载映射与随机森林的非加密流量识别方法
CN109951444A (zh) * 2019-01-29 2019-06-28 中国科学院信息工程研究所 一种加密匿名网络流量识别方法
CN110111814A (zh) * 2019-05-20 2019-08-09 国家计算机网络与信息安全管理中心 网络类型识别方法及装置
CN110136749A (zh) * 2019-06-14 2019-08-16 苏州思必驰信息科技有限公司 说话人相关的端到端语音端点检测方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王一平: "一种基于大数据的VoIP音频溯源", 《中国优秀博硕士学位论文全文数据库(硕士)》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114826735A (zh) * 2022-04-25 2022-07-29 国家计算机网络与信息安全管理中心 一种基于异构神经网络技术的VoIP恶意行为检测方法及系统
CN114826735B (zh) * 2022-04-25 2023-11-03 国家计算机网络与信息安全管理中心 一种基于异构神经网络技术的VoIP恶意行为检测方法及系统

Also Published As

Publication number Publication date
CN111641599B (zh) 2022-04-15

Similar Documents

Publication Publication Date Title
CN108768986B (zh) 一种加密流量分类方法及服务器、计算机可读存储介质
CN108768883B (zh) 一种网络流量识别方法及装置
CN108897789B (zh) 一种跨平台的社交网络用户身份识别方法
CN111798312A (zh) 一种基于孤立森林算法的金融交易系统异常识别方法
CN108833437A (zh) 一种基于流量指纹和通信特征匹配的apt检测方法
CN109067586A (zh) DDoS攻击检测方法及装置
CN105809190A (zh) 一种基于特征选取的svm级联分类器方法
CN109167680A (zh) 一种基于深度学习的流量分类方法
CN112003869B (zh) 一种基于流量的漏洞识别方法
CN104866558A (zh) 一种社交网络账号映射模型训练方法及映射方法和系统
CN113961712A (zh) 一种基于知识图谱的诈骗电话分析方法
CN113935426A (zh) 一种电力物联网异常数据流量的检测方法及装置
Vieira et al. A speech quality classifier based on tree-cnn algorithm that considers network degradations
CN111367874A (zh) 一种日志处理方法、装置、介质和设备
CN112202718B (zh) 一种基于XGBoost算法的操作系统识别方法、存储介质及设备
CN111563560B (zh) 基于时序特征学习的数据流分类方法及装置
CN111641599B (zh) 一种VoIP网络流量所属平台的识别方法
CN113645182B (zh) 一种基于二次特征筛选的拒绝服务攻击随机森林检测方法
CN111600877A (zh) 一种基于MF-Ada算法的LDoS攻击检测方法
CN116150688A (zh) 智能家居中轻量级的物联网设备识别方法与装置
CN110995713A (zh) 一种基于卷积神经网络的僵尸网络检测系统及方法
CN107209834A (zh) 恶意通信模式提取装置、恶意通信模式提取系统、恶意通信模式提取方法及恶意通信模式提取程序
CN108199878B (zh) 高性能ip网络中个人标识信息识别系统及方法
CN109728977A (zh) Jap匿名流量检测方法及系统
CN111368858B (zh) 用户满意度评估方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 100029 Beijing city Chaoyang District Yumin Road No. 3

Patentee after: NATIONAL COMPUTER NETWORK AND INFORMATION SECURITY MANAGEMENT CENTER

Patentee after: Xinxun Digital Technology (Hangzhou) Co.,Ltd.

Address before: 100029 Beijing city Chaoyang District Yumin Road No. 3

Patentee before: NATIONAL COMPUTER NETWORK AND INFORMATION SECURITY MANAGEMENT CENTER

Patentee before: EB Information Technology Ltd.