CN115396381B

CN115396381B - 一种基于响应时间特征的加密音视频流量识别方法及系统

Info

Publication number: CN115396381B
Application number: CN202210889760.7A
Authority: CN
Inventors: 杜梅婕; 许敏超; 李钊; 邓泽一; 杨威; 刘庆云
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2022-07-27
Filing date: 2022-07-27
Publication date: 2024-04-30
Anticipated expiration: 2042-07-27
Also published as: CN115396381A

Abstract

本发明提供一种基于响应时间特征的加密音视频流量识别方法及系统，涉及网络流量识别领域，基于服务端与客户端响应时间的特征，经过处理后作为机器学习模型的输入，预测加密音视频流量。本发明利用了TCP流的握手时延模拟网络平均时延，在网络流后续的数据交互过程中将网络平均时延归零，去除了网络平均时延对视频流量特征造成的影响，最终使得训练的模型在复杂开发网络环境下仍能保持高准确率识别。

Description

一种基于响应时间特征的加密音视频流量识别方法及系统

技术领域

本发明涉及网络流量识别领域，具体涉及一种基于响应时间特征的加密音视频流量识别方法及系统。

背景技术

对网络流量进行快速而精准的分类有助于网络运营商更好的优化分配网络资源，为用户提供更好的服务质量。由于目前视频流占据着统领地位，因此对视频流量的识别分析显得格外的重要。而随着端到端加密技术以及DASH、HLS等动态自适应比特率传输协议的的广泛应用，大多数的加密流量识别方法转而采用以下几种类型的特征：1)基于包长度、包间隔序列提取的统计特征值；2)数据包的各协议头部字段值，如IP、TCP、UDP、TLS等。以下将分别列举两个最新的技术方案。

首先是基于序列统计特征值的识别方法。Wu等人提出一个加密流量分类方法FS&IP(参见Z.Wu,Y.N.Dong,H.L.Wei,andW.Tian,“Consistencymeasurebased simultaneousfeature selection and instance purification for multimedia trafficclassification,”Computer Networks,vol.173,p.107190,2020.)，该方法从包长度序列和包间隔序列中提取出44维统计特征(上下行包长度、包间隔的最大值、平均值、方差等)以及一个能表征网络连接行为的特征：F-frag，最终将45维特征经过筛选后训练机器学习模型进行加密流量识别。

其次是基于数据包协议字段值的识别方法。Holland等人提出NprintML(参见J.Holland,P.Schmitt,N.Feamster,and P.Mittal,“New directions in automatedtraffic analysis,”in CCS’21:2021ACM SIGSAC Conference on Computer andCommunications Security,2021,pp.3366–3383.)，该方法通过提取IP、TCP、UDP、ICMP等所有字段值，进行统一格式的01编码作为原始特征，并采用AutoGluon实现自动的特征选择和模型训练。并实现以98.4％的平均准确率识别采用DASH传输的视频服务商。

现有的大多数研究通常在封闭数据集上表现都很优异。但真实的网络环境并非封闭数据集一样的单纯，通常是有线网络、无线网络混合，3G、4G、5G网络并存。除去网络制式的不同，网络的带宽也各不相同。不同的网络环境时延与抖动各不相同。这些网络环境因素会对上述特征产生不同程度的干扰，使得上述方法在未知开放数据集上效果下降明显。

发明内容

为减少网络环境对视频流量特征的干扰，使得视频流量识别方法可以在复杂开放网络环境同样有效，本发明提出了一种基于响应时间特征的加密音视频流量识别方法及系统，基于服务端与客户端响应时间的特征，经过处理后作为机器学习模型的输入，预测加密音视频流量。本发明利用了TCP流的握手时延模拟网络平均时延，在网络流后续的数据交互过程中将网络平均时延归零，去除了网络平均时延对视频流量特征造成的影响，最终使得训练的模型在复杂开发网络环境下仍能保持高准确率识别。

为实现上述目的，本发明采用以下技术方案：

一种基于响应时间特征的加密音视频流量识别方法，包括以下步骤：

捕获数据包，并按照五元组(源IP、目的IP、源端口、目的端口、协议)划分为流；

统计每条流的上行和下行的长度序列，以及客户端的响应时间序列和服务器的响应时间序列；

分别统计客户端的响应时间序列和服务器的响应时间序列在不同时长区间的数量，得到客户端的响应时间分布序列和服务器的响应时间分布序列；然后合并为一个总响应时间分布序列，并对该总响应时间分布序列归一化得到响应时间特征；

根据数据包上行、下行的长度序列分别统计最大值、总和以及平均值；

将上述响应时间特征、最大值、总和和平均值构成最终的多维特征；

按照上述步骤获得训练用的多维特征，输入到梯度提升决策树模型中对模型进行训练；

对待测的数据按照上述步骤获得多维特征，输入到训练好的梯度提升决策树模型中，预测待测数据是否为加密音视频流量。

进一步地，统计客户端和服务器的响应时间序列的测量点位于客户端或者中间节点上。

进一步地，若测量点位于客户端上，则统计相应时间的步骤包括：

统计每条TCP流的前两次握手数据包，根据客户端侧的前两个数据包的时间间隔来估计当前流的链路平均时延T_cs；

将数据包的交互行为分类，通过当前数据包以及上一个数据包的方向、时间间隔来判断其类别，并计算响应时间。

进一步地，将数据包的交互行为分为如下5类：

类型1是从客户端到服务器，再从客户端到服务器；

类型2是从客户端到服务器，再从服务器到客户端；

类型3是从服务器到客户端，再从服务器到客户端；

类型4是从服务器到客户端，再从客户端到服务器；

类型5是从服务器到客户端和从客户端到服务器的两个数据包在传输时间上出现相交。

进一步地，针对各个类别计算响应时间，包括：

针对类型1，通过计算客户端数据包时间间隔来得到客户端响应时间；

针对类型2，通过客户端数据包时间间隔减去链路平均时延T_cs来估计服务端响应时间；

针对类型3，采用客户端侧的数据包时间间隔估计服务端响应时间；

针对类型4，通过计算客户端数据包时间间隔来得到客户端响应时间；

针对类型5，抛弃统计。

进一步地，若测量点位于中间节点上，则统计相应时间的步骤包括：

统计每条TCP流的三次握手数据包，即通过第1、2次握手计算从中间节点到服务器的链路时延T_fs，再通过第2、3次握手计算从中间节点到客户端的链路时延T_fs；

进一步地，将数据包的交互行为分为如下5类：

类型1是从客户端到服务器，再从客户端到服务器；

类型2是从客户端到服务器，再从服务器到客户端；

类型3是从服务器到客户端，再从服务器到客户端；

类型4是从服务器到客户端，再从客户端到服务器；

类型5是从中间节点到服务器和从服务器到中间节点的数据流出现相交，或从客户端到中间节点和中间节点到客户端的数据流出现相交。

进一步地，针对各个类别计算响应时间，包括：

针对类型1，通过中间节点两个数据包间的到达时间间隔估计客户端响应时间；

针对类型2，通过中间节点数据包时间间隔减去链路时延T_fs来估计服务端响应时间；

针对类型3，采用中间节点的数据包时间间隔估计服务端响应时间；

针对类型4，通过中间节点数据包时间间隔减去链路时延T_fc来得到客户端响应时间；

针对类型5，抛弃统计。

进一步地，响应时间特征为16维特征，最终得到的多维特征为25维特征。

进一步地，根据数据包上行、下行的长度序列分别统计，包括以下两种：一种是把上行与下行分为两条长度序列来分别统计特征值，另一种是把上行与下行按照时间顺序合为一条长度序列来统计特征值。

一种基于响应时间特征的加密音视频流量识别系统，包括存储器和处理器，在该存储器上存储有计算机程序，该处理器执行该程序时实现上述方法的步骤。

本发明的优点如下：

1、本发明采用客户端和服务端的响应时间分布特征，能有效应对网络平均时延对视频流量特征造成的影响，基于该特征的模型在复杂开发网络环境下仍能保持高准确率识别；

2、本发明提出的方法在封闭环境下同样能达到现有技术的识别准确率。

附图说明

图1是本发明实施例的一种基于响应时间特征的加密音视频流量识别示意图。

图2是本发明实施例的类型5的示意图。

图3A-3B是实验的marcoF1-score结果(图3A是GBDT，图3B是DT)。

具体实施方式

为使本发明的上述特征和优点能更明显易懂，下文特举实施例，并配合所附图作详细说明如下。

鉴于现有技术中存在的问题，本发明实施例提出了一种基于客户端和服务器响应时间特征的加密视频流量识别方法，以应对链路时延对特征泛化性的影响。本发明的思想是：首先采用TCP握手时延估计当前流的链路平均时延，下一步根据数据包的交互行为，从包到达时间序列中去除平均时延，划分出客户端与服务端的响应时间。最后对该特征的分布进行统计和归一化后用于模型训练预测。图1展示了一次客户端和服务器通过中间节点进行TCP交互的行为，其中{c₁,c₂,…,c₁₀},{f₁,f₂,…,f₁₂},{s₁,s₂,…,s₁₀}分别表示客户端、中间节点、服务端侧相邻两个数据包之间的时间间隔。在这些时间间隔中c₇,c₈,c₉和s₄,s₅,s₆,s₇为统计目标，其分别表示客户端的响应时间与服务端的响应时间。该方法具体分为以下5个步骤：1)将数据包划分为流；2)统计响应时间以及长度序列；3)计算响应时间分布特征以及长度序列统计特征；4)特征归一化；5)模型训练。以下将详细介绍每个步骤。

步骤1、首先将捕获的数据包根据五元组(源IP、目的IP、源端口、目的端口、协议)划分为流，既维护一个流表，流表项的id为五元组值，当数据包的五元组值命中流表时则进行对应流表项的统计，否则新建流表项进行统计。其中取每条流的前1000个包，若当前流不足1000个包，则取其包含的所有数据包。

步骤2、对每条流统计其上行和下行的长度序列以及客户端和服务器的响应时间序列。其中，根据测量点位置的不同，对响应时间序列的统计会有所不同，以下将对测量点位于客户端以及位于中间节点的情况展开介绍。

a)测量点位于客户端

当测量点位于客户端时仅需要考虑客户端和服务器之间的链路时延。首先将统计每条TCP流的前两次握手数据包，根据客户端侧的前两个包时间间隔(图1中的c₁)来估计当前流的链路平均时延T_cs。下一步将数据包的交互行为划分为5类，通过当前包以及上一个包的方向、时间间隔来判断其类别，并计算响应时间。具体5种分类以及相应的响应时间计算方式如下：

类型1(Type1)：是从C(Client)到S(Server)、再从C到S，此时通过计算客户端包时间间隔来得到客户端响应时间，即图1中的c₉。

类型2(Type2)：是从C到S、再从S到C，此时通过客户端包时间间隔减去链路平均时延T_cs来估计服务端响应时间，即图1中的s₄≈c₃-c₁。

类型3(Type3)：是从S到C、再从S到C，此时由于观测点位于客户端侧难以直接测量服务测的响应时间信息，因此采用客户端侧的包时间间隔估计服务端响应时间，即图1中的s₆≈c₅。

类型4(Type4)：是从S到C、再从C到S，此时通过计算客户端包时间间隔来得到客户端响应时间，即图1中的c₇。

类型5(Type5)：是当从S到C和从C到S的两个包在传输时间上出现相交时，例如图2所示，此时无法从中提取出有效的响应时间信息，将直接抛弃统计；如果没有出现交叉则属于类型2。判断的方式是通过比较客户端包时间间隔与平均时延减去抖动值的数值之间的大小来确定，具体可通过下式判：

r_c<T_cs-θT_cs

其中r_c为客户端包时间间隔；θT_cs为时延抖动值。

当该式子成立时，则当前传输模式属于类型5，否则属于类型2。

b)测量点位于中间节点

当测量点位于中间节点时，需要考虑客户端和中间节点之间时延以及中间节点和服务器之间的时延。首先统计每条TCP流的三次握手数据包：通过第1、2次握手计算从F(中间节点)到S的链路时延T_fs，通过第2、3次握手计算从F到C的链路时延T_fs，分别对应图1中的f₂、f₃。类似的将数据包的交互行为划分为5类并计算响应时间特征，具体如下：

类型1(Type1)：是从C到S、再从C到S，此时通过中间节点两个包间的到达时间间隔估计客户端响应时间，即图1中的c₉≈f₁₁。

类型2(Type2)：是从C到S、再从S到C，此时通过中间节点包时间间隔减去F到S的链路时延T_fs来估计服务端响应时间，即图1中的s₄≈f₅-f₂。

类型3(Type3)：是从S到C、再从S到C，采用中间节点的包时间间隔估计服务端响应时间，即图1中的s₆≈f₇。

类型4(Type4)：是从S到C、再从C到S，此时通过中间节点包时间间隔减去F到C的链路时延T_fc来得到客户端响应时间，即图1中的c₇≈f₉-f₃。

类型5(Type5)：是当从F到S和S到F的数据流出现相交或从C到F和F到C的数据流出现相交时将抛弃统计，可分别通过下面两式判断：

r_f<T_fs-θT_fs,r_f<T_fc-θT_fs

其中r_f为中间节点时间间隔，θT_fs和θT_fc为时延抖动值。

上述左边式子判断从F到S和S到F的数据流是否出现相交，右边式子判断从C到F和F到C的数据流是否出现相交。判断结果是当满足左式时当前传输模式为类型5，否则为类型2；当满足右式时为类型5，否则为类型4。

最后通过对响应时间进行统计后可得到客户端响应时间序列R^c和服务端响应时间序列R^s。

步骤3、在得到序列R^c和R^s后，为表征其分布特征，下一步统计序列元素在不同时长区间的数量，并最终得到响应时间分布序列R^dc和R^ds。具体的区间如表1所示。

表1响应时间分布区间

0～10μs	10μs～100μs	100μs～1ms	1ms～10ms
				10ms～100ms	100ms～1s	1s～10s	10s<

步骤4、下一步将R^dc和R^ds合并为R，并对R采用min-max归一化最后得到16维响应时间特征Y。除此之外，根据包上行下行以及上下行的长度序列分别统计最大值、总和以及平均值，其中根据上行下行的长度序列来统计指的是上行与下行分为两条长度序列来分别统计特征值，而根据上下行的长度序列来统计指的是把上行与下行合为一条序列(按时间顺序)进行统计的特征值；最后由上述16维响应时间特征Y、最大值、总和以及平均值构成25维特征，如表2所示。

表2特征描述

步骤5、模型训练

通过前两步流程后得到总共25维的模型输入特征，最终采用梯度提升决策树模型进行训练与预测。即，在训练阶段，按照上述步骤获得训练用的多维特征，输入到梯度提升决策树模型中对模型进行训练；在测试阶段，对待测的数据按照上述步骤获得多维特征，输入到训练好的梯度提升决策树模型中，输出预测结果。

实验：

本实验采用了两个自采数据集进行实验验证，两组的区别在于网络接入的方式不同：一组是在wifi和line接入的环境下进行数据包采集，另一组则是在4g接入方式下进行数据包采集。两组均采集了来自的YouTube、Tencentvideo、bilibili、netflix、tiktok、kwai视频样本，以及来自WeChat、qq、gmail、chrome onlinedownload采集的非视频样本，这两个数据集中所有的样本均通过人工进行流量标注。最终经过标注以及过滤后的数据集详细组成如表3所示。

表3数据集构成

本实验中采用以下四个性能评估指标：Recall、Precision、F1score和marcoF1score。其中定义TP表示true positive，TN表示ture negatives，FP表示falsepositives以及FN表示false negatives。部分评价指标的计算公式如下：

其中β>1可以作为惩罚因子来提供更大的召回权，本实验选择β＝1，即表示F1-score。

为了评估所有类别的总体分类性能，本实验采用marco F1 score，具体计算公式如下，其中n为类别数量，F1i表示每一类的F1值，在本文中n为2。

本发明方法与下述两类算法进行比较：

●基于数据包负载内容的特征：选取的是特征提取方法：Nprint(参见J.Holland,P.Schmitt,N.Feamster,and P.Mittal,“New directions in automated trafficanalysis,”in CCS’21:2021ACM SIGSAC Conference on Computer and CommunicationsSecurity,2021,pp.3366–3383.)，Nprint能提取TCP、UDP、IP等包头部字段的所有信息，并组织为统一的结构作为模型输入特征。本实验使用的Nprint参数是‘-t-u-4sample size＝100’即提取TCP、UDP、IP头部字段值(不包含ip与端口)，以每100个包作为一个样本。

·基于长度和时间序列的特征：选取的是论文(参见Z.Wu,Y.N.Dong,H.L.Wei,andW.Tian,“Consistencymeasurebased simultaneous feature selection andinstance purification for multimedia traffic classification,”ComputerNetworks,vol.173,p.107190,2020.)中提出的方法FS&IP。FS&IP基于长度和时间序列提取统计特征以及表征网络连接行为的特征：F-frag，并最后通过特征选择算法筛选特征。

实验将分别采用FS_IP、Nprint以及本发明的方法来提取出三套特征集，并采用python机器学习库sklearn中的决策树和梯度提升树模型进行训练和预测。

为了验证各方法在复杂网络环境下的分类性能，对每种方法在DT和GBDT模型下进行了两组实验：1)数据集1是采用4G数据集进行训练，用wifi&line数据集进行测试；2)数据集2是采用wifi&line进行训练，用4G进行测试。

最终的实验的marcoF1-score结果如图3A-3B所示，分析该图可知，RTDF(本发明)方法在两个数据集下均能取得较高的marcoF1-score，特别是当采用GBDT模型时，在数据集1上能达到95.32％的marcoF1-score。而FS&IP的最高marcoF1-score值为79.21％，Nprint的最高marcoF1-score仅为49.62％。具体三种方法对每一类识别的Recall、Precision、F1-score如表4所示，分析该表可知RTDF方法使用GBDT模型的性能优于DT模型。当采用GBDT模型时，RTDF对两个类别均能实现88.26％以上的分类F1值。该实验证明了本发明提出方法具有高鲁棒性以及泛化性。

表4实验结果

虽然本发明已以实施例公开如上，然其并非用以限定本发明，本领域的普通技术人员对本发明的技术方案进行的适当修改或者等同替换，均应涵盖于本发明的保护范围内，本发明的保护范围以权利要求所限定者为准。

Claims

1.一种基于响应时间特征的加密音视频流量识别方法，其特征在于，包括以下步骤：

捕获数据包，并按照五元组划分为流，该五元组包含源IP、目的IP、源端口、目的端口、协议；

统计每条流的上行和下行的长度序列，以及客户端的响应时间序列和服务器的响应时间序列；统计客户端和服务器的响应时间序列的测量点位于客户端或者中间节点上；若测量点位于客户端上，则统计相应时间的步骤包括：统计每条TCP流的前两次握手数据包，根据客户端侧的前两个数据包的时间间隔来估计当前流的链路平均时延T_cs；将数据包的交互行为分类，通过当前数据包以及上一个数据包的方向、时间间隔来判断其类别，并计算响应时间；若测量点位于中间节点上，则统计相应时间的步骤包括：统计每条TCP流的三次握手数据包，即通过第1、2次握手计算从中间节点到服务器的链路时延T_fs，再通过第2、3次握手计算从中间节点到客户端的链路时延T_fc；将数据包的交互行为分类，通过当前数据包以及上一个数据包的方向、时间间隔来判断其类别，并计算响应时间；

根据数据包上行、下行的长度序列分别统计数据包大小的最大值、总和以及平均值；

2.如权利要求1所述的方法，其特征在于，在测量点位于客户端情况下的统计时间的步骤中，将数据包的交互行为分为如下5类：

类型1是从客户端到服务器，再从客户端到服务器；

类型2是从客户端到服务器，再从服务器到客户端；

类型3是从服务器到客户端，再从服务器到客户端；

类型4是从服务器到客户端，再从客户端到服务器；

3.如权利要求2所述的方法，其特征在于，针对各个类别计算响应时间，包括：

针对类型5，抛弃统计。

4.如权利要求1所述的方法，其特征在于，在测量点位于中间节点情况下的统计时间的步骤中，将数据包的交互行为分为如下5类：

类型1是从客户端到服务器，再从客户端到服务器；

类型2是从客户端到服务器，再从服务器到客户端；

类型3是从服务器到客户端，再从服务器到客户端；

类型4是从服务器到客户端，再从客户端到服务器；

5.如权利要求4所述的方法，其特征在于，针对各个类别计算响应时间，包括：

针对类型5，抛弃统计。

6.如权利要求1所述的方法，其特征在于，根据数据包上行、下行的长度序列分别统计数据包大小的最大值、总和以及平均值，包括以下两种：一种是把上行与下行分为两条长度序列来分别统计数据包大小的最大值、总和以及平均值，另一种是把上行与下行按照时间顺序合为一条长度序列来统计数据包大小的最大值、总和以及平均值。

7.一种基于响应时间特征的加密音视频流量识别系统，包括存储器和处理器，在该存储器上存储有计算机程序，该处理器执行该程序时实现权利要求1~6任一项所述方法的步骤。