CN114679606B

CN114679606B - 一种基于Burst特征的视频流量识别方法、系统、电子设备及存储介质

Info

Publication number: CN114679606B
Application number: CN202210354186.5A
Authority: CN
Inventors: 余翔湛; 刘立坤; 史建焘; 李精卫; 葛蒙蒙; 张晓慧; 苗钧重; 刘凡; 韦贤葵; 石开宇; 王久金; 冯帅; 赵跃; 宋赟祖; 郭明昊; 车佳臻
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2022-04-02
Filing date: 2022-04-02
Publication date: 2023-05-09
Anticipated expiration: 2042-04-02
Also published as: CN114679606A

Abstract

本发明提出一种基于Burst特征的视频流量识别方法、系统、电子设备及存储介质，属于日志异常检测技术领域。包括以下步骤：步骤一、捕获视频流量，对视频流量进行预处理；步骤二、获取经过预处理视频流量的Burst特征和Burst序列对应的时序特征；步骤三、将Burst特征和时序特征提取后的数据作为单个视频的指纹，对数据进行分类从而识别视频流量。本发明主要针对于基于DASH协议构建的视频平台传输的视频流进行视频识别，通过每个视频独有的Burst特征进行二次特征提取，分析Brst序列中的时序特征。并创建LightGBM模型对单个视频的时序特征进行识别。解决了无法细粒度的对视频流量进行识别的技术问题。

Description

一种基于Burst特征的视频流量识别方法、系统、电子设备及存储介质

技术领域

本申请涉及一种视频流量识别方法，尤其涉及一种基于Burst特征的视频流量识别方法、系统、电子设备及存储介质，属于日志异常检测技术领域。

背景技术

网络视频技术的不断发展，使人们的生活越来越丰富多彩，同时也给不法份子带来了可乘之机，不法份子通过制作非法视频上传到网络中，使得一些违规内容在网络中传播造成不好的社会影响。目前针对于网络流量识别的方法主要分为三类：基于端口的方法，基于负载的方法，统计方法；

基于端口的方法：这种方法是最基础的流量分类方法，通过去匹配TCP/UDP包头中端口号与IANA分配一些已知的端口号去分类，显然这是一个简单快速的方法，但在目前动态端口和网络地址端口转换的环境中并不适用(NAPT)。

基于负载的方法：这种方法通过检查数据包头和有效载荷来识别应用程序，同时也被称为深度包探测(DPI)，该方法在降低假阳性的情况下提供更高的准确率，但是该方法不适用于加密流量。

统计方法：统计方法使用与有效载荷无关的参数，比如数据包长度，到达间隔时间和流持续时间来解决加密流量和用户隐私的问题。许多工作是使用机器学习(ML)算法进行的。一般来说，有两种学习策略被使用：一种是监督学习，如决策树、SVM和朴素贝叶斯，另一种是无监督学习，如K-means和PCA。尽管如此，其觉差的准确率和需要手工去选取特征不能满足现在快速增长的细粒度流量分类要求。

基于传统流量分类的方法无法细粒度的对视频流量进行识别。包大小，时间间隔，TCP流五元组等常用流量识别特征无法分辨出视频流量，不能作为视频流量的指纹。传统方法用在视频流量识别中只考虑视频流量传输过程中的一些元数据，无法提取具有代表性的视频流量的特性。所以该类型只能应用于网络协议或者APP流量的识别，无法应用在视频流量领域。

发明内容

在下文中给出了关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。应当理解，这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分，也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。

鉴于此，为解决现有技术中存在的无法细粒度的对视频流量进行识别的技术问题，本发明提供一种基于Burst特征的视频流量识别方法、系统、电子设备及存储介质。

由于大部分视频流量是通过SSL协议加密的，并且针对于不同的视频平台采用的协议均有不同视频流量的传输模式，没有规律可言，本发明只针对基于DASH协议的视频平台(Youtube)进行识别。本发明通过分析DASH协议本身，使用DASH和VBR产生视频分片大小的序列，该序列对于每个视频来说是独一无二的，利用DASH和VBR产生的内容泄露提取出视频流量在传输中的Burst模式，利用Burst特征对视频流量进行分类。

视频流量时序特征是基于DASH协议存在的信息泄露所暴露出的特征，许多视频流有自己独有的Burst特征，在给定的网络测量环境下可以使用机器学习或者深度学习方法识别这些特征，因为可变字节码率(VBR)，视频分片大小可变，并且客户端是以分片的粒度去请求内容资源，所以加密视频流量中的Burst是和客户端请求对分片对应的，这些特征会暴露视频的部分内容。

因此，本发明基于Burst特征结合时序特征进行视频流量的识别。

方案一：一种基于Burst特征的视频流量识别方法，包括以下步骤：

S1.捕获视频流量，对视频流量进行预处理；

S2.获取经过预处理视频流量的Burst特征和Burst序列对应的时序特征；

S3.将Burst特征和时序特征提取后的数据作为单个视频的指纹，对数据进行分类从而识别视频流量。

优选的，所述对视频流量进行预处理的方法是，包括以下步骤：

S11.自动化捕获视频流量，具体方法是，通过输入URL控制浏览器播放对应视频，启动tshark进行流量捕获；

S12.取视频流量中的TCP流，将TCP流划分为流协议、流原IP、流目的IP、流原端口号和流目的端口号，基于客户端问候消息中的服务名称指示字段决定每个流是否为Youtube流，如果在SNI中找到“googlevideos.com”字符串，说明视频流中包含指示字段则保存下来，否则删除。

S13：选择是否删除视频流量中的音频数据，当流量小于400kb则删除音频数据；

S14：提取TCP流中对应的元组(time,bytes)，将Pcap类型的数据流转化为格式化文件用于特征提取。

优选的，所述获取经过预处理视频流量的Burst特征的方法是，基于DASH和VBR泄漏出的内容，在每次捕获中，只保留比特数最多的TCP流，并提取出以下流属性的时间序列：上传/下载-每秒所有字节数，上传/下载-每秒所有数据包，以及上传/下载-所有平均数据包长度。

优选的，所述获取经过预处理视频流量的Burst序列对应的时序特征的方法是，使用Tsfresh获取Burst序列对应的时序特征，具体包括三个阶段，

阶段1：使用特征映射来表征时间序列，针对元信息的附加信息进行聚合运算，提取特征对应的最大值、最小值、平均值和方差；

阶段2：计算特征与结果之间的相关性，通过相关性的数值进行排序，相关性的数值是一个P-values向量，量化每个特征对label的重要性；

阶段3：根据P-values向量进行评估，对P值进行从小到大对排序，标记上序号1～n；其中，最大的FDR等于最大的P值；第n-1位的FDR，取下面两者的较小值(第n位的P值，P*n/(n-1))；不断迭代出最小P值的FDR，确定保留FDR(错误发现率)被限制在某一固定水平的特征；固定水平就是最小P值对应的FDR。

优选的，所述将Burst特征和时序特征提取后的数据作为单个视频的指纹，对数据进行分类从而识别视频流量的方法是，包括以下步骤：

S31：训练模型；具体方法是，将视频流量提取出时序特征和视频类别作为LightGBM的输入，以7:3的比例划分训练集合，测试集合，对训练集进行5折交叉验证，得到LightGBM分类模型，并在测试集合上验证结果；

S32：视频识别；具体方法是，执行S1-S2得到时序特征，将时序特征输入至S31所述训练好的LightGBN分类模型中，输出的视频类别。

方案二：用于实现方案一所述的一种基于Burst特征的视频流量识别方法，包括流量捕获模块、时序特征提取模块和流量视频识别模块；

流量捕获模块用于捕获视频流量，对视频流量进行预处理；

时序特征提取模块用于获取时序特征；

流量视频识别模块用于对数据进行分类并识别视频流量。

方案三：一种电子设备，包括存储器和处理器，存储器存储有计算机程序，所述的处理器执行所述计算机程序时实现方案一所述的一种基于Burst特征的视频流量识别方法的步骤。

方案四：一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现方案一所述的一种基于Burst特征的视频流量识别方法。

本发明的有益效果如下：本发明基于Burst特征的视频流量识别，能够解析Youtube视频存在的特征，生成对应指纹来标识单个视频。针对于每个视频存在的指纹使用机器学习进行训练生成模型，通过旁路监测对单个视频流量的传输进行识别。使用LightGBN模型提供了更快的训练速度，更高的识别效率和识别准确率。本发明弥补了流量识别领域针对于视频流量识别的空白，本发明主要针对于基于DASH协议构建的视频平台传输的视频流进行视频识别，通过每个视频独有的Burst特征进行二次特征提取，分析Burst序列中的时序特征。并创建LightGBM模型对单个视频的时序特征进行识别。本发明解决了现有技术中存在的无法细粒度的对视频流量进行识别的技术问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本发明方法流程示意图；

图2为本发明方法视频流量识别整体设计流程；

图3为本发明数据预处理流程示意图；

图4为本发明时序特征提取流程示意图。

具体实施方式

为了使本申请实施例中的技术方案及优点更加清楚明白，以下结合附图对本申请的示例性实施例进行进一步详细的说明，显然，所描述的实施例仅是本申请的一部分实施例，而不是所有实施例的穷举。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

实施例1、参照图1-4说明本实施方式，一种基于Burst特征的视频流量识别方法，包括以下步骤：

S1.捕获视频流量，对视频流量进行预处理，具体方法是，包括以下步骤：

具体的，自动化捕获视频流量可以通过Selenium工具实现自动化捕获视频流量的脚本；

具体的，自动化捕获视频流量可以通过Tshark工具实现自动化捕获视频流量的脚本；

具体的，流量捕获可以设置停止阈值，例如5分钟停止进程。

S12.S12.取视频流量中的TCP流，将TCP流划分为流协议、流原IP、流目的IP、流原端口号和流目的端口号，基于客户端问候消息中的服务名称指示字段决定每个流是否为Youtube流，如果在SNI中找到“googlevideos.com”字符串，说明视频流中包含指示字段则保存下来，否则删除。具体的，SSL协议中包含SNI字段，在加密协议中为数不多的明文字段，SNI字段为基于客户端问候消息中的服务名称指示，可以表明服务的域名。如果视频流量数据包中的SNI字段包含“googlevideos.com”则认为是Youtube视频流，传递到特征提取过程，如果不是删除。

具体的，将TCP流量划分为流的方法可以根据五元组表示划分；

具体的，音频数据和视频数据可以在同一个五元组流中找到，但音频流量小于视频流量；

具体的，Pcap文件就是标准化的网络数据包文件的后缀，将这种类型的文件转化为Csv表格文件，表格文件内容是元组(time,bytes)。

具体的，Burst特征就是一个点(time,bytes)，Burst序列就是指由Burst特征的点根据时间顺序构成的序列。

所述获取经过预处理视频流量的Burst特征的方法是，基于DASH和VBR泄漏出的内容，在每次捕获中，只保留比特数最多的TCP流，并提取出以下流属性的时间序列：上传/下载-每秒所有字节数，上传/下载-每秒所有数据包，以及上传/下载-所有平均数据包长度。

具体的，建统一向量，可以以0.25de时间粒度聚合序列中的数值；

Burst是时间序列中的一系列点，当这些点对应于到达时间和数据包大小时，Burst可与更高级别元素(如HTTP响应)的传输相关联。Burst Series(时序特征)是每个点对应一个Burst的序列。Burst的时间是形成突发的点序列的开始和结束之间的中点。突发的值是序列中点的值的总和。我们通过汇总为0.25秒的块来聚合Burst Series。这些序列就可以作为视频流量的特征。

所述获取经过预处理视频流量的Burst序列对应的时序特征的方法是，使用Tsfershgo获取Burst序列对应的时序特征，具体包括三个阶段，

具体的，元信息包括数据包大小和时间间隔等附加特征。

阶段2：每个聚合特征向量都被独立地评估其对预测结果的重要性，计算特征与结果之间的相关性，通过相关性的数值进行排序，相关性的数值是一个P-values向量，量化每个特征对label的重要性；

具体的，P-values向量可以根据Benjamini-Yekutieli程序进行评估，以确定要保留哪些特征。

S3.将Burst特征和时序特征提取后的数据作为单个视频的指纹，对数据进行分类从而识别视频流量，具体方法是，包括以下步骤：

S32：视频识别；具体方法是，执行S1-S2得到时序特征，将时序特征输入至S31所述训练好的LightGBM分类模型中，输出的视频类别。

实施例2、一种基于Burst特征的视频流量识别方法，包括流量捕获模块、时序特征提取模块和流量视频识别模块；

流量捕获模块用于捕获视频流量，对视频流量进行预处理；

时序特征提取模块用于获取时序特征；

流量视频识别模块用于对数据进行分类并识别视频流量。

本发明的缩略语和关键术语定义：

DASH：全称为Dynamic Adaptive Streaming over HTTP及给予HTTP的动态自适应的比特率流，工作流程如下：HTTP Server将媒体文件切分成一个个时间长度相等的小分片，每个分片被编码为不同的码率和分辨率。Client通过GET请求下载，客户端通过评估自身的性能和带宽情况，下载相应码率和分辨率的切片，码率切换以Segment为单位。带宽差时下载低分辨率切片，带宽好时下载高分辨率切片，不同质量切片时间上对齐，所以切换流畅。

Burst：单位时间间隔内视频流量传输大小的聚合数,用元组(time,bytes)表示，time表示时间戳，bytes表示字节数。

实施例3、本发明的计算机装置可以是包括有处理器以及存储器等装置，例如包含中央处理器的单片机等。并且，处理器用于执行存储器中存储的计算机程序时实现上述的基于CREO软件的可修改由关系驱动的推荐数据的推荐方法的步骤。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

实施例4、计算机可读存储介质实施例

本发明的计算机可读存储介质可以是被计算机装置的处理器所读取的任何形式的存储介质，包括但不限于非易失性存储器、易失性存储器、铁电存储器等，计算机可读存储介质上存储有计算机程序，当计算机装置的处理器读取并执行存储器中所存储的计算机程序时，可以实现上述的基于CREO软件的可修改由关系驱动的建模数据的建模方法的步骤。

所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的，而非限制性的，本发明的范围由所附权利要求书限定。

Claims

1.一种基于Burst特征的视频流量识别方法，其特征在于，针对基于DASH协议的视频平台进行识别，通过分析DASH协议本身，利用DASH和VBR产生的内容泄露提取出视频流量在传输中的Burst模式，利用Burst特征对视频流量进行分类，包括以下步骤：

S1. 捕获视频流量，对视频流量进行预处理，包括以下步骤：

S11. 自动化捕获视频流量，具体方法是，通过输入URL控制浏览器播放对应视频，启动Tshark进行流量捕获；

S12. 获取视频流量中的TCP流，将TCP流划分为流协议、流原IP、流目的IP、流原端口号和流目的端口号，基于客户端问候消息中的服务名称指示字段决定每个流是否为Youtube流，如果在 SNI 中找到“googlevideos.com”字符串，说明视频流中包含指示字段则保存下来，否则删除；

S13：选择是否删除视频流量中的音频数据，当流量小于400kb删除音频数据；

S14：提取TCP流中对应的元组（time,bytes），将Pcap类型的数据流转化为格式化文件用于特征提取；

S2. 获取经过预处理视频流量的Burst特征和Burst序列对应的时序特征；

获取经过预处理视频流量的Burst特征的方法是，基于DASH和VBR泄漏出的内容，在每次捕获中，只保留比特数最多的TCP流，并提取出以下流属性的时间序列：上传/下载-每秒所有字节数，上传/下载-每秒所有数据包，以及上传/下载-所有平均数据包长度；

获取经过预处理视频流量的Burst序列对应的时序特征的方法是，使用Tsfresh获取Burst序列对应的时序特征，具体包括三个阶段，

阶段1：使用特征映射来表征时间序列，针对元信息的附加信息进行聚合运算，元信息包括数据包大小和时间间隔附加特征，提取聚合特征对应的最大值、最小值、平均值和方差；

阶段2：计算聚合特征与结果之间的相关性，通过相关性的数值进行排序，相关性的数值是一个P-values向量，量化每个特征对视频类别的重要性；

阶段3：根据P-values向量进行评估，确定保留FDR被限制在某一固定水平的特征；

S3. 将Burst特征和时序特征提取后的数据作为单个视频的指纹，对数据进行分类从而识别视频流量。

2.根据权利要求1所述的一种基于Burst特征的视频流量识别方法，其特征在于，所述将Burst特征和时序特征提取后的数据作为单个视频的指纹，对数据进行分类从而识别视频流量的方法是，包括以下步骤：

S32：视频识别；具体方法是，执行S1-S2得到时序特征，将时序特征输入至S31所述训练好的模型中，输出的视频类别。

3.一种基于Burst特征的视频流量识别系统，其特征在于：用于实现权利要求1或2所述的一种基于Burst特征的视频流量识别方法，包括流量捕获模块、时序特征提取模块和流量视频识别模块；

流量捕获模块用于捕获视频流量，对视频流量进行预处理；

时序特征提取模块用于获取时序特征；

流量视频识别模块用于对数据进行分类并识别视频流量。

4.一种电子设备，其特征在于，包括存储器和处理器，存储器存储有计算机程序，所述的处理器执行所述计算机程序时实现权利要求1或2所述的一种基于Burst特征的视频流量识别方法的步骤。

5.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1或2所述的一种基于Burst特征的视频流量识别方法。