CN116847101A

CN116847101A - 基于Transformer网络的视频比特率阶梯预测方法、系统及设备

Info

Publication number: CN116847101A
Application number: CN202311116849.0A
Authority: CN
Inventors: 黄海亮; 李仕仁; 段志奎; 丁一; 白剑; 梁瑛玮; 张海林; 鲁和平; 李长杰; 陈焕然; 李乐; 王浩; 洪行健; 冷冬; 李尚然
Original assignee: Yifang Information Technology Co ltd
Current assignee: Yifang Information Technology Co ltd
Priority date: 2023-09-01
Filing date: 2023-09-01
Publication date: 2023-10-03
Anticipated expiration: 2043-09-01
Also published as: CN116847101B

Abstract

本发明提出了一种基于Transformer网络的视频比特率阶梯预测方法、系统及设备，方法包括：获取目标视频；基于Transformer网络构建视频比特率阶梯预测模型并进行训练；根据所述视频比特率阶梯预测模型对所述目标视频进行预测，输出视频预测结果。本发明通过视频比特率阶梯预测模型结合视频时空特征，在自注意力机制的基础上加入局部特征信息，通过确定视频分类即可实时准确地预测视频比特率阶梯，便于用户确定编码视频的码率和分辨率，有效提高预测的实时性和准确性。

Description

基于Transformer网络的视频比特率阶梯预测方法、系统及设备

技术领域

本发明涉及计算机技术领域，具体涉及一种基于Transformer网络的视频比特率阶梯预测方法、系统及设备。

背景技术

目前，视频比特率阶梯预测在各行各业都有广泛的应用。例如，在视频网络传输领域，需要为每个视频进行不同参数的编码，从而满足特定带宽和设备的播放要求，因为不同带宽需要不同传输速率，不同设备对视频的分辨率需求也不同。但是，对视频提供方而言，需要在保证视频质量的情况下，使用最低的比特率发送视频，也就是说，在保证视频质量的前提下，尽量节省带宽。为了满足此需求，视频提供方需要选择合适的参数对原始视频进行编码。视频编码参数的选择（如码率，分辨率），需要获取待发送视频的比特率阶梯，即对其进行比特率阶梯预测。视频比特率阶梯预测需要满足两个条件：

实时性。因为客户对视频的观看一般为实时需求，所以视频提供商需要对客户想观看的视频进行实时播放，这就要求编码参数的确定具有实时性，也就是说比特率阶梯的预测需要具有实时性。

准确率。准确会视频提供方有重大影响，如果编码的码率过低，会影响视频质量，从而影响客户观看体验；如果编码的码率过高，则浪费带宽。

由此可见，实时性和准确性是衡量比特率阶梯预测的两个指标。目前，视频比特率阶梯预测常见的方法之一是将常见的视频根据其内容分为不同的题材，如动画视频、教程视频等，然后每个题材选取一些视频，计算其比特率阶梯，然后取同个题材不同视频的比特率阶梯的平均值作为该题材的比特率阶梯。如果遇到该题材的视频，就用此比特率阶梯确定编码参数。此方法的出发点是认为相同题材的视频，内容类似，所以比特率阶梯也类似。但是，即使是相同题材的视频，内容还是有一定的区别，所以这种方法确定的参数准确性不足。

另外一种方法是对数据库中的每个视频都计算其比特率阶梯，当需要传输时，即可马上获取其编码参数。当数据库中视频更新较快时，此方法工作量太大。当相关用户需要观看刚上传的视频时，此方法也不能立即给出编码参数，因为计算比特率阶梯耗时较长，所以这种情况下，此方法的实时性不高。

由此可见，传统的视频比特率阶梯预测方式很难兼顾实时性和准确性这两大关键指标。

发明内容

针对现有技术的不足，本发明提出一种基于Transformer网络的视频比特率阶梯预测方法、系统及设备。

本发明第一方面公开了一种基于Transformer网络的视频比特率阶梯预测方法，包括：

S1: 获取目标视频；

S2：基于Transformer网络构建视频比特率阶梯预测模型并进行训练；

S3：根据所述视频比特率阶梯预测模型对所述目标视频进行预测，输出视频预测结果。

在一个可选的实施例中，所述视频比特率阶梯预测模型包括token嵌入模块、编码器模块以及多层感知机模块，所述编码器模块由空间域transformer编码器和时间域transformer编码器组成，所述编码器均包括层归一化模块、注意力机制模块以及MLP模块。

在一个可选的实施例中，所述根据所述视频比特率阶梯预测模型对所述目标视频进行预测，输出视频预测结果包括：

基于所述token嵌入模块，将所述目标视频进行逐帧切分，提取所有单帧视频的子特征加入位置编码后融合为视频特征，对所述视频特征进行线性变换后输出作为所述编码器的输入特征；

基于所述编码器模块，将所述输入特征经层归一化处理后，通过自注意力机制模块提取嵌入层局部特征加入各编码器层的全局特征中，后经MLP模块进行线性和或/非线性变换输出带有局部特征信息和全局特征信息/>的输出特征，所述局部特征和全局特征均包括经空间域transformer编码器获取的视频空间维度特征以及经时间域transformer编码器获取的视频时间维度特征，所述空间维度特征和时间维度特征均根据自主力机制融合为所述输出特征中的时空特征；

基于所述多层感知机模块，将所述输出特征依次经过线性变换、非线性函数处理以及重复线性变换，输出视频分类及所述视频分类对应的视频比特率阶梯，所述视频比特率阶梯包括一一对应的视频分辨率和视频码率。

在一个可选的实施例中，所述基于所述token嵌入模块，将所述目标视频进行逐帧切分，提取所有单帧视频的子特征加入位置编码后融合为视频特征包括：

将含有帧的目标视频中所有单帧视频切分为k个token，单帧视频大小为H*W*C，将所述单帧视频转换成大小为N*(P2C)的子特征，其中P2为每个token对应的分辨率，且满足条件N=HW/P2，在以单一帧数的时间维度上将所述子特征融合为所述视频特征。

在一个可选的实施例中，所述基于所述编码器模块，将所述输入特征经层归一化处理后，通过自注意力机制模块提取嵌入层局部特征加入各编码器层的全局特征中，后经MLP模块进行线性和或/非线性变换输出带有局部特征信息和全局特征信息/>的输出特征，其计算公式为：

；

其中，x表示经token嵌入模块处理后目标视频的输入特征，Y表示经编码器模块处理后输出的输出特征，表示层归一化处理，/>表示自注意力机制处理，/>表示MLP网络处理，y表示自注意力机制模块计算产生的中间特征。

在一个可选的实施例中，所述通过自注意力机制模块提取嵌入层局部特征加入各编码器层的全局特征中，其计算公式为：

；

其中，x表示经token嵌入模块处理后目标视频的输入特征，表示包含目标视频时空特征的局部特征信息，/>表示包含目标视频时空特征的全局特征信息，/>表示线性变换处理，/>表示1*1的卷积处理用于降低线性变换后变量的维度，mask表示掩膜处理，/>表示掩膜矩阵，/>表示点积运算，/>表示特征维度，y表示自注意力机制模块计算产生的中间特征。

在一个可选的实施例中，所述表示掩膜矩阵，其计算公式为：

；

其中，表示大小为M*M的全零矩阵。

在一个可选的实施例中，所述基于所述多层感知机模块，将所述输出特征依次经过线性变换、非线性函数处理以及重复线性变换，输出视频分类，其计算公式为：

；

其中，Y表示经编码器模块处理后输出的输出特征，表示线性变换处理，表示GELU非线性函数，Z表示输出的视频分类。

本发明第二方面公开了一种基于Transformer网络的视频比特率阶梯预测系统，所述系统包括：

采集模块,用于获取目标视频；

模型构建模块，用于基于Transformer网络构建视频比特率阶梯预测模型并进行训练；

预测结果模块，用于根据所视频比特率阶梯预测模型对所述目标视频进行预测，输出视频预测结果。

本发明第三方面公开了一种基于Transformer网络的视频比特率阶梯预测设备，包括：

至少一个处理器，以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如本发明第一方面公开的任一项所述的基于Transformer网络的视频比特率阶梯预测方法。

本发明第四方面公开了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如本发明第一方面公开的任一项所述的基于Transformer网络的视频比特率阶梯预测方法。

与现有技术相比，本发明具有以下优点：

本发明通过基于Transformer网络构建视频比特率阶梯预测模型并进行训练，将待预测的目标视频输入模型中，目标视频先经过token嵌入模块进行视频帧切分并加入位置编码信息作为编码器的输入，再通过空间域编码器和时间域编码器提取目标视频的时空特征，最后根据时空特征信息通过多层感知机模块对目标视频进行分类以匹配不同的比特率阶梯，且在原注意力机制中加入了局部信息，通过先提取嵌入层的局部注意力信息添加到其他编码器层中，融合局部特征信息和全局特征信息能够提高模型的性能，局部信息嵌入只作一次计算便可加入到各编码器层中，降低了计算量，通过Transformer网络构建的视频比特率阶梯预测模型可以有效提高视频比特率阶梯预测的准确性，同时提升了计算性能满足比特率阶梯预测的实时性，能够在短时间内实现不同视频的比特率阶梯预测和对应的视频分类，仅需通过视频分类即可由对应比特率阶梯获取视频编码所需的编码参数，有效提高预测的实时性和准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于Transformer网络的视频比特率阶梯预测方法的流程图；

图2为本发明基于Transformer网络的视频比特率阶梯预测系统的示意图；

图3为本发明基于Transformer网络的视频比特率阶梯预测方法中编码器的示意图；

图4为本发明基于Transformer网络的视频比特率阶梯预测方法中自注意力机制的示意图；

图5为本发明基于Transformer网络的视频比特率阶梯预测模型的示意图；

图6为本发明基于Transformer网络的视频比特率阶梯预测方法中token嵌入的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”、“第四”等仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

实施例1，参见图1、图3、图4、图5以及图6，本发明实施方式公开了一种基于Transformer网络的视频比特率阶梯预测方法，包括：

S1: 获取目标视频；

；

其中，表示大小为M*M的全零矩阵。

；

如图2所示，本发明第二方面公开了一种基于Transformer网络的视频比特率阶梯预测系统，所述系统包括：

采集模块,用于获取目标视频；

至少一个处理器，以及，

与所述至少一个处理器通信连接的存储器；其中，

该计算机设备可以是终端，该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现基于Transformer网络的视频比特率阶梯预测方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各通过基于Transformer网络的视频比特率阶梯预测方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink）DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

或者，本发明上述模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机、终端、或者网络设备等）执行本发明各个实施例方法的全部或部分。而前述的存储介质包括：移动存储设备、RAM、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于Transformer网络的视频比特率阶梯预测方法，其特征在于，所述方法包括：

S1: 获取目标视频；

S2：基于Transformer网络构建视频比特率阶梯预测模型并进行训练，所述视频比特率阶梯预测模型包括token嵌入模块、编码器模块以及多层感知机模块，所述编码器模块由空间域transformer编码器和时间域transformer编码器组成，所述编码器均包括层归一化模块、注意力机制模块以及MLP模块；

S3：根据所述视频比特率阶梯预测模型对所述目标视频进行预测，输出视频预测结果，所述根据所述视频比特率阶梯预测模型对所述目标视频进行预测，输出视频预测结果包括：

2.根据权利要求1所述的基于Transformer网络的视频比特率阶梯预测方法，其特征在于，所述基于所述token嵌入模块，将所述目标视频进行逐帧切分，提取所有单帧视频的子特征加入位置编码后融合为视频特征包括：

将含有帧的目标视频中所有单帧视频切分为k个token，单帧视频大小为H*W*C，将所述单帧视频转换成大小为N*(P²C)的子特征，其中P²为每个token对应的分辨率，且满足条件N=HW/P²，在以单一帧数的时间维度上将所述子特征融合为所述视频特征。

3.根据权利要求1所述的基于Transformer网络的视频比特率阶梯预测方法，其特征在于，所述基于所述编码器模块，将所述输入特征经层归一化处理后，通过自注意力机制模块提取嵌入层局部特征加入各编码器层的全局特征中，后经MLP模块进行线性和或/非线性变换输出带有局部特征信息和全局特征信息/>的输出特征，其计算公式为：

；

4.根据权利要求3所述的基于Transformer网络的视频比特率阶梯预测方法，其特征在于，所述通过自注意力机制模块提取嵌入层局部特征加入各编码器层的全局特征中，其计算公式为：

；

5.根据权利要求4所述的基于Transformer网络的视频比特率阶梯预测方法，其特征在于，所述表示掩膜矩阵，其计算公式为：

；

其中，表示大小为M*M的全零矩阵。

6.根据权利要求1所述的基于Transformer网络的视频比特率阶梯预测方法，其特征在于，所述基于所述多层感知机模块，将所述输出特征依次经过线性变换、非线性函数处理以及重复线性变换，输出视频分类，其计算公式为：

；

7.一种基于Transformer网络的视频比特率阶梯预测系统，其特征在于，所述系统包括：

采集模块,用于获取目标视频；

模型构建模块，用于基于Transformer网络构建视频比特率阶梯预测模型并进行训练，所述视频比特率阶梯预测模型包括token嵌入模块、编码器模块以及多层感知机模块，所述编码器模块由空间域transformer编码器和时间域transformer编码器组成，所述编码器均包括层归一化模块、注意力机制模块以及MLP模块；

预测结果模块，用于根据所视频比特率阶梯预测模型对所述目标视频进行预测，输出视频预测结果，所述根据所述视频比特率阶梯预测模型对所述目标视频进行预测，输出视频预测结果包括：

8.一种基于Transformer网络的视频比特率阶梯预测设备，其特征在于，包括：

至少一个处理器，以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至6任一项所述的基于Transformer网络的视频比特率阶梯预测方法。