CN117077030B

CN117077030B - 一种面向生成模型的少样本视频流分类方法及系统

Info

Publication number: CN117077030B
Application number: CN202311336194.8A
Authority: CN
Inventors: 冯林; 李伟; 杜成军; 王小华
Original assignee: Chengdu Acrie Technology Co ltd; Easy Parking Internet Of Things Technology Chengdu Co ltd; Sichuan Normal University
Current assignee: Chengdu Acrie Technology Co ltd; Easy Parking Internet Of Things Technology Chengdu Co ltd; Sichuan Normal University
Priority date: 2023-10-16
Filing date: 2023-10-16
Publication date: 2024-01-26
Anticipated expiration: 2043-10-16
Also published as: CN117077030A

Abstract

本发明公开一种面向生成模型的少样本视频流分类方法及系统，涉及模式识别与网络视频流处理领域，采用Wireshark在不同时间段提取不同类别的网络视频流并进行数据清洗，构建适合机器学习建模的少样本视频流数据集；基于网络业务流的服务质量统计特性，提取少样本视频流数据集特征；建立视频流类别的概率生成模型，采用Metropolis‑Hasting算法扩充用于深度学习的训练集；结合自编码器AE与深度神经网络DNN建立最优的AEDNN视频流分类模型，并对未知视频流数据进行分类，获得分类结果。本发明可准确高效地对网络视频流进行识别与分类，视频业务运营商可依据不同类别的视频流业务的服务质量要求提供不同等级的服务。

Description

一种面向生成模型的少样本视频流分类方法及系统

技术领域

本发明涉及模式识别与网络视频流处理技术领域，更具体的说是涉及一种面向生成模型的少样本视频流分类方法及系统。

背景技术

随着互联网技术的飞速发展，网络视频业务的增长迅猛。据统计，2022年互联网业务中，视频流的比例达到85％，并且每秒钟超过1000000min的视频内容在网络中传输。对网络视频流分类，可为视频业务运营商依据不同视频业务流的服务质量(QualityofService，QoS)要求提供不同等级的服务，也为视频业务运营商的网络管理、流量工程等应用有着重要意义。由于动态端口、地址伪装等技术的使用，使得基于机器学习的视频流分类方法成为研究的热点。

面对规模庞大且实时性强的网络视频大数据流，建立实时、准确的网络视频流分类模型具有挑战性。现有技术主要有两个：一是，在分类之前，对视频流数据进行特征选择，以降低网络数据流量，提高分类模型的实时性与准确性。但这些特征选择算法假设具有固定特征的静态数据集，而对于实时视频流数据，这些传统的批处理模式特征选择算法在每一轮寻找相关特征是不切实际的。二是，利用深度学习方法提高分类模型的准确度。但深度学习需要大量有标签数据集才能体现出分类器的卓越性能，而收集和标记大量数据集需要耗费巨大的时间和人力成本。

因此，如何准确、高效地对网络视频流进行识别与分类，为视频业务运营商更好地依据不同视频流业务的服务质量要求提供不同等级的服务是本领域技术人员亟需解决的技术问题。

发明内容

有鉴于此，本发明提供了一种面向生成模型的少样本视频流分类方法及系统，解决了背景技术指出的问题。

为了实现上述目的，本发明提供如下技术方案：

一种面向生成模型的少样本视频流分类方法，包括以下步骤：

采用网络数据包分析工具Wireshark在不同时间段提取不同类别的网络视频流并进行数据清洗，构建适合机器学习建模的少样本视频流数据集；

基于网络业务流的服务质量统计特性，提取少样本视频流数据集特征；

建立视频流类别的概率分布生成模型，采用Metropolis-Hasting算法进行采样，生成深度学习所需的训练集；

结合现有自编码器AE(Auto-Encoder)与深度神经网络DNN(DeepNeuralNetworks)，对训练集进行训练，直至损失函数最小，得到最优的AEDNN分类模型；

利用最优的AEDNN分类模型对未知视频流数据进行分类，获得分类结果。

可选的，网络视频流的类别包括：标清Web视频流数据、高清Web视频流数据

、超清Web视频流数据、即时视频数据、网络在线直播视频数据、P2P客户端视频数据、Http下载视频数据。

可选的，数据清洗得到的报文样本属性由五元组构成，五元组包括：时间、源IP地址、目的IP地址、协议、报文大小。

可选的，网络业务流的服务质量统计特性包括：包大小的信息熵，包大小的最大值、最小值、均值、方差，包大小的三阶中心距、四阶中心距、四阶累积量，包大小的概率密度函数PDF、分布函数CDF、互补分布函数CCDF，包到达时间间隔的信息熵，包到达时间间隔的最大值、最小值、均值、方差，包到达时间间隔的三阶中心距、四阶中心距、四阶累积量，包到达时间间隔的概率密度函数PDF、分布函数CDF、互补分布函数CCDF，字节速率的最大值、最小值、均值、方差，字节速率的三阶中心距、四阶中心距、四阶累积量，字节速率的概率密度函数PDF、分布函数CDF、互补分布函数CCDF，下上行字节数之比，下上行分组数之比，子流片段数目，分组速率。

可选的，建立视频流类别的概率分布模型，具体包括以下步骤：

设视频流数据集D有m个类别，其大小|D|，记为C₁,C₂,…,C_m；给定某个类别C_i数据的条件下，其概率密度参数向量Θ＝{θ₁,θ₂,…,θ_k}，其中θ₁,θ₂,…,θ_k分别表Θ的每一个分量；

设C_i获得视频流数据信息之前，具有先验概P(C_i；Θ)，C_i类的大小|C_i|，则先验概率P(C_i；Θ)可表示为

在C_i获得视频流数据x的条件下，概率密度参数向量Θ的分布所发生的改变可通过贝叶斯公式表示为：

公式中：P(C_i|x；Θ)表示后验概率；P(x|C_i；Θ)表示似然概率；P(x)表x的概率；

设C_i中视频流数据x包含个样本且相互独立，C_i的联合概率似然函数可表示如下：

基于中心极限定理，可假设C_i在特征空间上服从正态分布，Θ＝(μ_i,∑)，则概率密度f(x|μ_i,∑)表示如下：

公式中，μ_i表C_i的均值向量，Σ表示协方差矩阵，V表示数据集的维度，T表示转置；

极大似然函数L(μ_i,∑)定义如下：

由此，计算μ_i的最优及Σ的最优∑^*：

解得：

则，每个类C_i的概率密度函数可计算如下：

可选的，自编码器AE包括编码器和解码器；

编码器，用于将每个样本映射到低维特征空间的编码

；解码器，用于将编码重构为输出。

可选的，对训练集进行训练的目标是最小化损失函数

L_RE；

损失函数L_RE的定义如下：

L_RE＝-∑_i∈BS‖Xⁱ-g(f(Xⁱ))‖²

式中：函数f和g分别代表解码器和编码器，Xⁱ表示每次Batch输入，BS表示BatchSize值，f的输出为隐藏变量，用于作为深度神经网络的输入。

一种面向生成模型的少样本视频流分类系统，包括：

数据生成及清洗模块，用于通过网络数据包分析工具Wireshark在不同时间段提取不同类别的网络视频流并进行数据清洗，构建适合机器学习建模的视频流数据集；

特征提取模块，用于通过网络视频业务流的服务质量统计特性，提取视频流数据集特征；数据分布构建模块，用于建立视频流类别的概率分布模型；

深度学习训练集生成模块，用于对视频流类别的概率分布通过Metropolis-Hasting算法进行采样，生成适合于深度学习所需的训练集；分类模型建立及训练模块，用于通过结合自编码器AE与深度神经网络DNN，对训练集进行训练，直至损失函数最小，得到最优的AEDNN分类模型；

分类模块，用于通过最优的AEDNN分类模型对未知视频流数据进行分类，获得分类结果。

经由上述的技术方案可知，与现有技术相比，本发明提供了一种面向生成模型的少样本视频流分类方法及系统，具有以下有益效果：

(1)本发明使用生成学习范式，建立视频流类别的概率分布模型；依据概率分布模型，使用Metropolis-Hasting算法进行采样，自动生成用于深度学习的数据集，解决了数据标注需要大量人力、物力、财力等问题，避免深度学习模型对大规模标注数据的依赖问题；

(2)本发明结合深度堆栈编码器AE与深度神经网络DNN，一方面，采用深度堆栈编码器降低数据维度，而不采用传统特征提取方法，另一方面，采用深度神经网络DNN，提高了视频数据流的分类准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明提供的面向生成模型的少样本视频流分类方法的流程图；

图2为本发明提供的AEDNN分类模型的总体技术路线图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种面向生成模型的少样本视频流分类方法，如图1所示，包括以下步骤：

1、数据采集及清洗

网络视频流选取：具有代表性业务的标清Web视频流数据、高清Web视频流数据、超清Web视频流数据，来自于Youku、Tencent、iQIYI等视频网站；即时视频数据，使用网络教育的腾讯会议方式采集；网络在线直播视频数据，使用电视台采集；P2P客户端视频数据，使用Kankan平台采集；Http下载视频数据，共七种类别的视频业务流，将这七种分别记为SD、HD、FHD、IVD、OLV、P2P与HVD。

数据集收集采用Wireshark在不同时间段提取网络视频流，时间跨度从2022年3月到

2022年6月的不定时间段。

对采集的网络视频流进行数据清洗，得到的报文样本属性由五元组构成，五元组包括：时间、源IP地址、目的IP地址、协议、报文大小。每条视频流持续25min，每类数据流收集的比例为：标清Web视频流数据13％、高清Web视频流数据12％、超清Web视频流数据10％、即时视频数据10％、网络在线直播视频数据15％、P2P客户端视频数据13％、Http下载视频数据25％，共700条数据。

2、特征提取

基于网络业务流的服务质量(QoS)统计特性，提取干净的视频流数据集特征。常用网络业务流的统计特性包括下/上行包大小的信息熵、包到达时间间隔的最大/最小值/均值/方差等30多个，具体见表1。

表1常用网络业务流的统计特性

3、建立视频流类别的概率分布模型

由前述内容可以了解到，数据集的QoS统计特性共36个。现有流分类方法均采用特征选取策略来建立分类模型，但这些特征选择算法都假设具有固定特征的静态数据集，而对于实时视频流数据，这些传统的批处理模式特征选择算法在每一轮寻找相关特征是不切实际的；另一方面，不同的特征选择方法生成的最终特征结果也不尽相同，即特征选择具有不稳定性。下面，本实施例不采用特征选择方法来实现，而是通过少量样本数据构建贝叶斯生成模型，以提高模型的鲁棒性。

设视频流数据集D有m个类别，其大小|D|，类别记为C₁,C₂,…,C_m；下面根据贝叶斯方法建立每个C_i的概率密度分布函数。

给定某个类别C_i数据的条件下，其概率密度参数向量Θ＝{θ₁,θ₂,…,θ_k}，其中θ₁,θ₂,…,θ_k分别表Θ的每一个分量；

将P(C_i；Θ)更新为后验分布密度P(C_i|x；Θ)，因此，将概率密度参数向量Θ看作随机变量使得贝叶斯方法可以将外生信息融入推导过程。

设C_i中视频流数据x包个样本且相互独立，C_i的联合概率似然函数可表示如下：

对参数向Θ的估计可以采用以下方式进行。

极大似然函数L(μ_i,∑)定义如下：

由此，计算μ_i的最优及∑的最优∑^*：

解得：

则，每个类C_i的概率密度函数可计算如下：

有了就能够在C_i上进行采样，生成更大规模的数据集，以此训练准确率更高的分类模型。

4、Metropolis-Hasting采样

在以上所述内容的基础上，采用Metropolis-Hasting算法进行采样，生成深度学习所需的数据集，作为训练集，以更好地训练深度学习模型。该方法能够提高模型的识别率，解决传统深度神经网络在少标注样本的条件下存在的识别精度差的问题。

5、AEDNN分类模型

为提高模型的识别率，除了采用Metropolis-Hasting算法进行采样之外，还结合自编码器AE与深度神经网络DNN，对训练集进行训练，直至损失函数最小，得到最优的AEDNN分类模型。采用自编码器可以降低数据维度，提高视频数据流的分类结果。

自编码器是一种无监督神经网络，它将原始视频流数据映射到一个低维特征空间。自编码器由两部分组成，编码器和解码器；编码器将每个样本映射到低维

特征空间的编码；解码器将编码重构为输出。学习目标是最小化重构损失函数L_RE，损失函数定义如下：

L_RE＝-∑_i∈BS‖Xⁱ-g(f(Xⁱ))‖²

这样经过降维后减少了分类模型的计算量，也不需要人工设计提取数据特征，其总体技术路线如图2所示。

与图1所述的方法相对应，本发明实施例还提供了一种面向生成模型的少样本视频流

分类系统，用于对图1中方法的具体实现，本发明实施例提供的一种面向生成模型的少样本视频流分类系统可以应用计算机终端或各种移动设备中，具体包括：

接下来，通过具体实验对本实施例的技术方案进行更深一步的了解。

(1)实验数据集

首先，基于以上所述的本发明的技术方案，数据集采用7类视频流数据，统计特性数为36，共700条数据。其次，为了使用深度学习算法，在求得每类概率分布的基础上，使用Metropolis-Hastings采样方法生成35000条数据。35000条数据的比例约为：标清13％，高清12％，超清10％，即时视频数据10％，网络在线直播视频数据15％，P2P客户端视频数据13％，Http下载视频数据25％。

(2)实验设置

①在AE中，使用单层编码器、解码器结构，设置隐变量的维度为15(即特征提取空间为15)。自动编码器模型优化器采用adam，损失采用交叉熵函数。Epochs＝50，verbose＝2，batch_size＝256，shuffle＝True。

②DNN网络使用2层隐藏层结构，第一隐藏层80个节点，第二隐藏层60个节点。模型训练优化器采用adam，损失函数采用交叉熵。激活采用tanh函数，epochs＝100，batch_size＝256，学习率1e-3。

③数据集中分别提取60％、70％、80％的数据作为训练集，其余为测试集。

(3)模型评估

使用总体准确率、查准率、查全率来评估分类性能，其定义在此不赘述。

(4)实验结果

分别使用经典MultiSURF、MSGA模型和本实施例AEDNN三种方法评估总体准确率，结果见表2。

表2总体准确率评估

对经典JGSA方法和本实施例AEDNN方法对7种网络视频流分类结果对比如下表3所示。

表3JGSA方法和AEDNN方法的网络视频流分类结果

由此看出，本实施例提出的网络视频流量分类算法具有很好的分类性能，能够准确、高效地对网络视频流识别与分类，为视频业务运营商更好地依据不同视频流业务的服务质量要求提供不同等级的服务。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种面向生成模型的少样本视频流分类方法，其特征在于，包括以下步骤：

采用网络数据包分析工具 Wireshark 在不同时间段提取不同类别的网络视频流并进行数据清洗，构建适合机器学习建模的少样本视频流数据集；

基于所提取的数据集特征建立视频流类别的概率分布模型，得到每一类的概率密度函数，根据所述的每一类的概率密度函数采用Metropolis-Hasting算法进行采样，生成深度学习所需要的大规模训练集，具体包括以下步骤：

设视频流数据集D有m个类别，其大小，类别记为/>；给定某个类别/>数据的条件下，其概率密度参数向量/>，其中/>分别表/>的每一个分量；

设获得视频流数据信息之前，具有先验概率/>，/>类的大小/>，则先验概率可表示为/>；

在获得视频流数据x的条件下，概率密度参数向量/>的分布所发生的改变可通过贝叶斯公式表示为：

公式中：表示后验概率；/>表示似然概率；/>表x的概率；

设中视频流数据x包含/>个样本且相互独立，/>的联合概率似然函数可表示如下：

基于中心极限定理，可假设在特征空间上服从正态分布，/>，则概率密度表示如下：

公式中，表/>的均值向量，/>表示协方差矩阵，/>表示数据集的维度，/>表示转置；

极大似然函定义如下：

由此，计算的最优/>及/>的最优/>：

解得：

则，每个类的概率密度函数可计算如下：

；

结合自编码器AE与深度神经网络DNN，对训练集进行训练，直至损失函数最小，得到最优的 AEDNN分类模型；

利用最优的 AEDNN 分类模型对未知视频流数据进行分类，获得分类结果。

2.根据权利要求 1 所述的一种面向生成模型的少样本视频流分类方法，其特征在于，网络视频流的类别包括：标清Web视频流数据、高清Web视频流数据、超清Web视频流数据、即时视频数据、网络在线直播视频数据、P2P客户端视频数据、Http下载视频数据。

3.根据权利要求1 所述的一种面向生成模型的少样本视频流分类方法，其特征在于，数据清洗得到的报文样本属性由五元组构成，五元组包括：时间、源 IP 地址、目的 IP 地址、协议、报文大小。

4.根据权利要求 1 所述的一种面向生成模型的少样本视频流分类方法，其特征在于，网络业务流的服务质量统计特性包括：包大小的信息熵，包大小的最大值、最小值、均值、方差，包大小的三阶中心距、四阶中心距、四阶累积量，包大小的概率密度函数PDF、分布函数CDF、互补分布函数CCDF，包到达时间间隔的信息熵，包到达时间间隔的最大值、最小值、均值、方差，包到达时间间隔的三阶中心距、四阶中心距、四阶累积量，包到达时间间隔的概率密度函数PDF、分布函数CDF、互补分布函数CCDF，字节速率的最大值、最小值、均值、方差，字节速率的三阶中心距、四阶中心距、四阶累积量，字节速率的概率密度函数PDF、分布函数CDF、互补分布函数CCDF，下上行字节数之比，下上行分组数之比，子流片段数目，分组速率。

5.根据权利要求1 所述的一种面向生成模型的少样本视频流分类方法，其特征在于，自编码器AE包括编码器和解码器；

编码器，用于将每个样本映射到低维特征空间的编码；解码器，用于将编码重构为输出。

6.根据权利要求5 所述的一种面向生成模型的少样本视频流分类方法，其特征在于，对特征训练集进行训练的目标是最小化重构误差；

损失函数的表达式如下：

式中：函数和/>分别代表解码器和编码器，/>表示每次Batch输入，/>表示

BatchSize值，的输出为隐藏变量，用于作为深度神经网络的输入。

7.一种面向生成模型的少样本视频流分类方法的分类系统，其特征在于，包括：

数据生成及清洗模块，用于通过网络数据包分析工具 Wireshark在不同时间段提取不同类别的网络视频流并进行数据清洗，构建适合机器学习建模的少样本视频流数据集；

特征提取模块，用于通过网络视频业务流的服务质量统计特性，提取少样本视频流数据集特征；数据分布构建模块，基于所提取的数据集特征建立视频流类别的概率分布模型，得到每一类的概率密度函数；深度学习训练集生成模块，根据所述的每一类的概率密度函数采用Metropolis-Hasting算法进行采样，生成深度学习所需要的大规模训练集，具体包括以下步骤：

公式中：表示后验概率；/>表示似然概率；/>表x的概率；

极大似然函定义如下：

由此，计算的最优/>及的最优/>：

解得：

则，每个类的概率密度函数可计算如下：

；

分类模型建立及训练模块，用于通过结合自编码器AE与深度神经网络DNN，对训练集进行训练，直至损失函数最小，得到最优的 AEDNN 分类模型；

分类模块，用于通过最优的 AEDNN 分类模型对未知视频流数据进行分类，获得分类结果。