CN116847101A - 基于Transformer网络的视频比特率阶梯预测方法、系统及设备 - Google Patents
基于Transformer网络的视频比特率阶梯预测方法、系统及设备 Download PDFInfo
- Publication number
- CN116847101A CN116847101A CN202311116849.0A CN202311116849A CN116847101A CN 116847101 A CN116847101 A CN 116847101A CN 202311116849 A CN202311116849 A CN 202311116849A CN 116847101 A CN116847101 A CN 116847101A
- Authority
- CN
- China
- Prior art keywords
- video
- features
- module
- encoder
- bit rate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 230000007246 mechanism Effects 0.000 claims abstract description 32
- 238000012549 training Methods 0.000 claims abstract description 10
- 230000009466 transformation Effects 0.000 claims description 31
- 238000012545 processing Methods 0.000 claims description 23
- 238000004364 calculation method Methods 0.000 claims description 19
- 238000010606 normalization Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 10
- 230000002123 temporal effect Effects 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/30—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/70—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals characterised by syntax aspects related to video coding, e.g. related to compression standards
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Signal Processing (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本发明提出了一种基于Transformer网络的视频比特率阶梯预测方法、系统及设备,方法包括:获取目标视频;基于Transformer网络构建视频比特率阶梯预测模型并进行训练;根据所述视频比特率阶梯预测模型对所述目标视频进行预测,输出视频预测结果。本发明通过视频比特率阶梯预测模型结合视频时空特征,在自注意力机制的基础上加入局部特征信息,通过确定视频分类即可实时准确地预测视频比特率阶梯,便于用户确定编码视频的码率和分辨率,有效提高预测的实时性和准确性。
Description
技术领域
本发明涉及计算机技术领域,具体涉及一种基于Transformer网络的视频比特率阶梯预测方法、系统及设备。
背景技术
目前,视频比特率阶梯预测在各行各业都有广泛的应用。例如,在视频网络传输领域,需要为每个视频进行不同参数的编码,从而满足特定带宽和设备的播放要求,因为不同带宽需要不同传输速率,不同设备对视频的分辨率需求也不同。但是,对视频提供方而言,需要在保证视频质量的情况下,使用最低的比特率发送视频,也就是说,在保证视频质量的前提下,尽量节省带宽。为了满足此需求,视频提供方需要选择合适的参数对原始视频进行编码。视频编码参数的选择(如码率,分辨率),需要获取待发送视频的比特率阶梯,即对其进行比特率阶梯预测。视频比特率阶梯预测需要满足两个条件:
实时性。因为客户对视频的观看一般为实时需求,所以视频提供商需要对客户想观看的视频进行实时播放,这就要求编码参数的确定具有实时性,也就是说比特率阶梯的预测需要具有实时性。
准确率。准确会视频提供方有重大影响,如果编码的码率过低,会影响视频质量,从而影响客户观看体验;如果编码的码率过高,则浪费带宽。
由此可见,实时性和准确性是衡量比特率阶梯预测的两个指标。目前,视频比特率阶梯预测常见的方法之一是将常见的视频根据其内容分为不同的题材,如动画视频、教程视频等,然后每个题材选取一些视频,计算其比特率阶梯,然后取同个题材不同视频的比特率阶梯的平均值作为该题材的比特率阶梯。如果遇到该题材的视频,就用此比特率阶梯确定编码参数。此方法的出发点是认为相同题材的视频,内容类似,所以比特率阶梯也类似。但是,即使是相同题材的视频,内容还是有一定的区别,所以这种方法确定的参数准确性不足。
另外一种方法是对数据库中的每个视频都计算其比特率阶梯,当需要传输时,即可马上获取其编码参数。当数据库中视频更新较快时,此方法工作量太大。当相关用户需要观看刚上传的视频时,此方法也不能立即给出编码参数,因为计算比特率阶梯耗时较长,所以这种情况下,此方法的实时性不高。
由此可见,传统的视频比特率阶梯预测方式很难兼顾实时性和准确性这两大关键指标。
发明内容
针对现有技术的不足,本发明提出一种基于Transformer网络的视频比特率阶梯预测方法、系统及设备。
本发明第一方面公开了一种基于Transformer网络的视频比特率阶梯预测方法,包括:
S1: 获取目标视频;
S2:基于Transformer网络构建视频比特率阶梯预测模型并进行训练;
S3:根据所述视频比特率阶梯预测模型对所述目标视频进行预测,输出视频预测结果。
在一个可选的实施例中,所述视频比特率阶梯预测模型包括token嵌入模块、编码器模块以及多层感知机模块,所述编码器模块由空间域transformer编码器和时间域transformer编码器组成,所述编码器均包括层归一化模块、注意力机制模块以及MLP模块。
在一个可选的实施例中,所述根据所述视频比特率阶梯预测模型对所述目标视频进行预测,输出视频预测结果包括:
基于所述token嵌入模块,将所述目标视频进行逐帧切分,提取所有单帧视频的子特征加入位置编码后融合为视频特征,对所述视频特征进行线性变换后输出作为所述编码器的输入特征;
基于所述编码器模块,将所述输入特征经层归一化处理后,通过自注意力机制模块提取嵌入层局部特征加入各编码器层的全局特征中,后经MLP模块进行线性和或/非线性变换输出带有局部特征信息和全局特征信息/>的输出特征,所述局部特征和全局特征均包括经空间域transformer编码器获取的视频空间维度特征以及经时间域transformer编码器获取的视频时间维度特征,所述空间维度特征和时间维度特征均根据自主力机制融合为所述输出特征中的时空特征;
基于所述多层感知机模块,将所述输出特征依次经过线性变换、非线性函数处理以及重复线性变换,输出视频分类及所述视频分类对应的视频比特率阶梯,所述视频比特率阶梯包括一一对应的视频分辨率和视频码率。
在一个可选的实施例中,所述基于所述token嵌入模块,将所述目标视频进行逐帧切分,提取所有单帧视频的子特征加入位置编码后融合为视频特征包括:
将含有帧的目标视频中所有单帧视频切分为k个token,单帧视频大小为H*W*C,将所述单帧视频转换成大小为N*(P2C)的子特征,其中P2为每个token对应的分辨率,且满足条件N=HW/P2,在以单一帧数的时间维度上将所述子特征融合为所述视频特征。
在一个可选的实施例中,所述基于所述编码器模块,将所述输入特征经层归一化处理后,通过自注意力机制模块提取嵌入层局部特征加入各编码器层的全局特征中,后经MLP模块进行线性和或/非线性变换输出带有局部特征信息和全局特征信息/>的输出特征,其计算公式为:
;
;
其中,x表示经token嵌入模块处理后目标视频的输入特征,Y表示经编码器模块处理后输出的输出特征,表示层归一化处理,/>表示自注意力机制处理,/>表示MLP网络处理,y表示自注意力机制模块计算产生的中间特征。
在一个可选的实施例中,所述通过自注意力机制模块提取嵌入层局部特征加入各编码器层的全局特征中,其计算公式为:
;
;
;
其中,x表示经token嵌入模块处理后目标视频的输入特征,表示包含目标视频时空特征的局部特征信息,/>表示包含目标视频时空特征的全局特征信息,/>表示线性变换处理,/>表示1*1的卷积处理用于降低线性变换后变量的维度,mask表示掩膜处理,/>表示掩膜矩阵,/>表示点积运算,/>表示特征维度,y表示自注意力机制模块计算产生的中间特征。
在一个可选的实施例中,所述表示掩膜矩阵,其计算公式为:
;
其中,表示大小为M*M的全零矩阵。
在一个可选的实施例中,所述基于所述多层感知机模块,将所述输出特征依次经过线性变换、非线性函数处理以及重复线性变换,输出视频分类,其计算公式为:
;
其中,Y表示经编码器模块处理后输出的输出特征,表示线性变换处理,表示GELU非线性函数,Z表示输出的视频分类。
本发明第二方面公开了一种基于Transformer网络的视频比特率阶梯预测系统,所述系统包括:
采集模块,用于获取目标视频;
模型构建模块,用于基于Transformer网络构建视频比特率阶梯预测模型并进行训练;
预测结果模块,用于根据所视频比特率阶梯预测模型对所述目标视频进行预测,输出视频预测结果。
本发明第三方面公开了一种基于Transformer网络的视频比特率阶梯预测设备,包括:
至少一个处理器,以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如本发明第一方面公开的任一项所述的基于Transformer网络的视频比特率阶梯预测方法。
本发明第四方面公开了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如本发明第一方面公开的任一项所述的基于Transformer网络的视频比特率阶梯预测方法。
与现有技术相比,本发明具有以下优点:
本发明通过基于Transformer网络构建视频比特率阶梯预测模型并进行训练,将待预测的目标视频输入模型中,目标视频先经过token嵌入模块进行视频帧切分并加入位置编码信息作为编码器的输入,再通过空间域编码器和时间域编码器提取目标视频的时空特征,最后根据时空特征信息通过多层感知机模块对目标视频进行分类以匹配不同的比特率阶梯,且在原注意力机制中加入了局部信息,通过先提取嵌入层的局部注意力信息添加到其他编码器层中,融合局部特征信息和全局特征信息能够提高模型的性能,局部信息嵌入只作一次计算便可加入到各编码器层中,降低了计算量,通过Transformer网络构建的视频比特率阶梯预测模型可以有效提高视频比特率阶梯预测的准确性,同时提升了计算性能满足比特率阶梯预测的实时性,能够在短时间内实现不同视频的比特率阶梯预测和对应的视频分类,仅需通过视频分类即可由对应比特率阶梯获取视频编码所需的编码参数,有效提高预测的实时性和准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明基于Transformer网络的视频比特率阶梯预测方法的流程图;
图2为本发明基于Transformer网络的视频比特率阶梯预测系统的示意图;
图3为本发明基于Transformer网络的视频比特率阶梯预测方法中编码器的示意图;
图4为本发明基于Transformer网络的视频比特率阶梯预测方法中自注意力机制的示意图;
图5为本发明基于Transformer网络的视频比特率阶梯预测模型的示意图;
图6为本发明基于Transformer网络的视频比特率阶梯预测方法中token嵌入的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”、“第四”等仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
实施例1,参见图1、图3、图4、图5以及图6,本发明实施方式公开了一种基于Transformer网络的视频比特率阶梯预测方法,包括:
S1: 获取目标视频;
S2:基于Transformer网络构建视频比特率阶梯预测模型并进行训练;
S3:根据所述视频比特率阶梯预测模型对所述目标视频进行预测,输出视频预测结果。
在一个可选的实施例中,所述视频比特率阶梯预测模型包括token嵌入模块、编码器模块以及多层感知机模块,所述编码器模块由空间域transformer编码器和时间域transformer编码器组成,所述编码器均包括层归一化模块、注意力机制模块以及MLP模块。
在一个可选的实施例中,所述根据所述视频比特率阶梯预测模型对所述目标视频进行预测,输出视频预测结果包括:
基于所述token嵌入模块,将所述目标视频进行逐帧切分,提取所有单帧视频的子特征加入位置编码后融合为视频特征,对所述视频特征进行线性变换后输出作为所述编码器的输入特征;
基于所述编码器模块,将所述输入特征经层归一化处理后,通过自注意力机制模块提取嵌入层局部特征加入各编码器层的全局特征中,后经MLP模块进行线性和或/非线性变换输出带有局部特征信息和全局特征信息/>的输出特征,所述局部特征和全局特征均包括经空间域transformer编码器获取的视频空间维度特征以及经时间域transformer编码器获取的视频时间维度特征,所述空间维度特征和时间维度特征均根据自主力机制融合为所述输出特征中的时空特征;
基于所述多层感知机模块,将所述输出特征依次经过线性变换、非线性函数处理以及重复线性变换,输出视频分类及所述视频分类对应的视频比特率阶梯,所述视频比特率阶梯包括一一对应的视频分辨率和视频码率。
在一个可选的实施例中,所述基于所述token嵌入模块,将所述目标视频进行逐帧切分,提取所有单帧视频的子特征加入位置编码后融合为视频特征包括:
将含有帧的目标视频中所有单帧视频切分为k个token,单帧视频大小为H*W*C,将所述单帧视频转换成大小为N*(P2C)的子特征,其中P2为每个token对应的分辨率,且满足条件N=HW/P2,在以单一帧数的时间维度上将所述子特征融合为所述视频特征。
在一个可选的实施例中,所述基于所述编码器模块,将所述输入特征经层归一化处理后,通过自注意力机制模块提取嵌入层局部特征加入各编码器层的全局特征中,后经MLP模块进行线性和或/非线性变换输出带有局部特征信息和全局特征信息/>的输出特征,其计算公式为:
;
;
其中,x表示经token嵌入模块处理后目标视频的输入特征,Y表示经编码器模块处理后输出的输出特征,表示层归一化处理,/>表示自注意力机制处理,/>表示MLP网络处理,y表示自注意力机制模块计算产生的中间特征。
在一个可选的实施例中,所述通过自注意力机制模块提取嵌入层局部特征加入各编码器层的全局特征中,其计算公式为:
;
;
;
其中,x表示经token嵌入模块处理后目标视频的输入特征,表示包含目标视频时空特征的局部特征信息,/>表示包含目标视频时空特征的全局特征信息,/>表示线性变换处理,/>表示1*1的卷积处理用于降低线性变换后变量的维度,mask表示掩膜处理,/>表示掩膜矩阵,/>表示点积运算,/>表示特征维度,y表示自注意力机制模块计算产生的中间特征。
在一个可选的实施例中,所述表示掩膜矩阵,其计算公式为:
;
其中,表示大小为M*M的全零矩阵。
在一个可选的实施例中,所述基于所述多层感知机模块,将所述输出特征依次经过线性变换、非线性函数处理以及重复线性变换,输出视频分类,其计算公式为:
;
其中,Y表示经编码器模块处理后输出的输出特征,表示线性变换处理,表示GELU非线性函数,Z表示输出的视频分类。
本发明通过基于Transformer网络构建视频比特率阶梯预测模型并进行训练,将待预测的目标视频输入模型中,目标视频先经过token嵌入模块进行视频帧切分并加入位置编码信息作为编码器的输入,再通过空间域编码器和时间域编码器提取目标视频的时空特征,最后根据时空特征信息通过多层感知机模块对目标视频进行分类以匹配不同的比特率阶梯,且在原注意力机制中加入了局部信息,通过先提取嵌入层的局部注意力信息添加到其他编码器层中,融合局部特征信息和全局特征信息能够提高模型的性能,局部信息嵌入只作一次计算便可加入到各编码器层中,降低了计算量,通过Transformer网络构建的视频比特率阶梯预测模型可以有效提高视频比特率阶梯预测的准确性,同时提升了计算性能满足比特率阶梯预测的实时性,能够在短时间内实现不同视频的比特率阶梯预测和对应的视频分类,仅需通过视频分类即可由对应比特率阶梯获取视频编码所需的编码参数,有效提高预测的实时性和准确性。
如图2所示,本发明第二方面公开了一种基于Transformer网络的视频比特率阶梯预测系统,所述系统包括:
采集模块,用于获取目标视频;
模型构建模块,用于基于Transformer网络构建视频比特率阶梯预测模型并进行训练;
预测结果模块,用于根据所视频比特率阶梯预测模型对所述目标视频进行预测,输出视频预测结果。
本发明通过基于Transformer网络构建视频比特率阶梯预测模型并进行训练,将待预测的目标视频输入模型中,目标视频先经过token嵌入模块进行视频帧切分并加入位置编码信息作为编码器的输入,再通过空间域编码器和时间域编码器提取目标视频的时空特征,最后根据时空特征信息通过多层感知机模块对目标视频进行分类以匹配不同的比特率阶梯,且在原注意力机制中加入了局部信息,通过先提取嵌入层的局部注意力信息添加到其他编码器层中,融合局部特征信息和全局特征信息能够提高模型的性能,局部信息嵌入只作一次计算便可加入到各编码器层中,降低了计算量,通过Transformer网络构建的视频比特率阶梯预测模型可以有效提高视频比特率阶梯预测的准确性,同时提升了计算性能满足比特率阶梯预测的实时性,能够在短时间内实现不同视频的比特率阶梯预测和对应的视频分类,仅需通过视频分类即可由对应比特率阶梯获取视频编码所需的编码参数,有效提高预测的实时性和准确性。
本发明第三方面公开了一种基于Transformer网络的视频比特率阶梯预测设备,包括:
至少一个处理器,以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如本发明第一方面公开的任一项所述的基于Transformer网络的视频比特率阶梯预测方法。
该计算机设备可以是终端,该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现基于Transformer网络的视频比特率阶梯预测方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本发明第四方面公开了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如本发明第一方面公开的任一项所述的基于Transformer网络的视频比特率阶梯预测方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各通过基于Transformer网络的视频比特率阶梯预测方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
或者,本发明上述模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、终端、或者网络设备等)执行本发明各个实施例方法的全部或部分。而前述的存储介质包括:移动存储设备、RAM、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于Transformer网络的视频比特率阶梯预测方法,其特征在于,所述方法包括:
S1: 获取目标视频;
S2:基于Transformer网络构建视频比特率阶梯预测模型并进行训练,所述视频比特率阶梯预测模型包括token嵌入模块、编码器模块以及多层感知机模块,所述编码器模块由空间域transformer编码器和时间域transformer编码器组成,所述编码器均包括层归一化模块、注意力机制模块以及MLP模块;
S3:根据所述视频比特率阶梯预测模型对所述目标视频进行预测,输出视频预测结果,所述根据所述视频比特率阶梯预测模型对所述目标视频进行预测,输出视频预测结果包括:
基于所述token嵌入模块,将所述目标视频进行逐帧切分,提取所有单帧视频的子特征加入位置编码后融合为视频特征,对所述视频特征进行线性变换后输出作为所述编码器的输入特征;
基于所述编码器模块,将所述输入特征经层归一化处理后,通过自注意力机制模块提取嵌入层局部特征加入各编码器层的全局特征中,后经MLP模块进行线性和或/非线性变换输出带有局部特征信息和全局特征信息/>的输出特征,所述局部特征和全局特征均包括经空间域transformer编码器获取的视频空间维度特征以及经时间域transformer编码器获取的视频时间维度特征,所述空间维度特征和时间维度特征均根据自主力机制融合为所述输出特征中的时空特征;
基于所述多层感知机模块,将所述输出特征依次经过线性变换、非线性函数处理以及重复线性变换,输出视频分类及所述视频分类对应的视频比特率阶梯,所述视频比特率阶梯包括一一对应的视频分辨率和视频码率。
2.根据权利要求1所述的基于Transformer网络的视频比特率阶梯预测方法,其特征在于,所述基于所述token嵌入模块,将所述目标视频进行逐帧切分,提取所有单帧视频的子特征加入位置编码后融合为视频特征包括:
将含有帧的目标视频中所有单帧视频切分为k个token,单帧视频大小为H*W*C,将所述单帧视频转换成大小为N*(P2C)的子特征,其中P2为每个token对应的分辨率,且满足条件N=HW/P2,在以单一帧数的时间维度上将所述子特征融合为所述视频特征。
3.根据权利要求1所述的基于Transformer网络的视频比特率阶梯预测方法,其特征在于,所述基于所述编码器模块,将所述输入特征经层归一化处理后,通过自注意力机制模块提取嵌入层局部特征加入各编码器层的全局特征中,后经MLP模块进行线性和或/非线性变换输出带有局部特征信息和全局特征信息/>的输出特征,其计算公式为:
;
;
其中,x表示经token嵌入模块处理后目标视频的输入特征,Y表示经编码器模块处理后输出的输出特征,表示层归一化处理,/>表示自注意力机制处理,/>表示MLP网络处理,y表示自注意力机制模块计算产生的中间特征。
4.根据权利要求3所述的基于Transformer网络的视频比特率阶梯预测方法,其特征在于,所述通过自注意力机制模块提取嵌入层局部特征加入各编码器层的全局特征中,其计算公式为:
;
;
;
其中,x表示经token嵌入模块处理后目标视频的输入特征,表示包含目标视频时空特征的局部特征信息,/>表示包含目标视频时空特征的全局特征信息,/>表示线性变换处理,/>表示1*1的卷积处理用于降低线性变换后变量的维度,mask表示掩膜处理,/>表示掩膜矩阵,/>表示点积运算,/>表示特征维度,y表示自注意力机制模块计算产生的中间特征。
5.根据权利要求4所述的基于Transformer网络的视频比特率阶梯预测方法,其特征在于,所述表示掩膜矩阵,其计算公式为:
;
其中,表示大小为M*M的全零矩阵。
6.根据权利要求1所述的基于Transformer网络的视频比特率阶梯预测方法,其特征在于,所述基于所述多层感知机模块,将所述输出特征依次经过线性变换、非线性函数处理以及重复线性变换,输出视频分类,其计算公式为:
;
其中,Y表示经编码器模块处理后输出的输出特征,表示线性变换处理,表示GELU非线性函数,Z表示输出的视频分类。
7.一种基于Transformer网络的视频比特率阶梯预测系统,其特征在于,所述系统包括:
采集模块,用于获取目标视频;
模型构建模块,用于基于Transformer网络构建视频比特率阶梯预测模型并进行训练,所述视频比特率阶梯预测模型包括token嵌入模块、编码器模块以及多层感知机模块,所述编码器模块由空间域transformer编码器和时间域transformer编码器组成,所述编码器均包括层归一化模块、注意力机制模块以及MLP模块;
预测结果模块,用于根据所视频比特率阶梯预测模型对所述目标视频进行预测,输出视频预测结果,所述根据所述视频比特率阶梯预测模型对所述目标视频进行预测,输出视频预测结果包括:
基于所述token嵌入模块,将所述目标视频进行逐帧切分,提取所有单帧视频的子特征加入位置编码后融合为视频特征,对所述视频特征进行线性变换后输出作为所述编码器的输入特征;
基于所述编码器模块,将所述输入特征经层归一化处理后,通过自注意力机制模块提取嵌入层局部特征加入各编码器层的全局特征中,后经MLP模块进行线性和或/非线性变换输出带有局部特征信息和全局特征信息/>的输出特征,所述局部特征和全局特征均包括经空间域transformer编码器获取的视频空间维度特征以及经时间域transformer编码器获取的视频时间维度特征,所述空间维度特征和时间维度特征均根据自主力机制融合为所述输出特征中的时空特征;
基于所述多层感知机模块,将所述输出特征依次经过线性变换、非线性函数处理以及重复线性变换,输出视频分类及所述视频分类对应的视频比特率阶梯,所述视频比特率阶梯包括一一对应的视频分辨率和视频码率。
8.一种基于Transformer网络的视频比特率阶梯预测设备,其特征在于,包括:
至少一个处理器,以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至6任一项所述的基于Transformer网络的视频比特率阶梯预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311116849.0A CN116847101B (zh) | 2023-09-01 | 2023-09-01 | 基于Transformer网络的视频比特率阶梯预测方法、系统及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311116849.0A CN116847101B (zh) | 2023-09-01 | 2023-09-01 | 基于Transformer网络的视频比特率阶梯预测方法、系统及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116847101A true CN116847101A (zh) | 2023-10-03 |
CN116847101B CN116847101B (zh) | 2024-02-13 |
Family
ID=88162045
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311116849.0A Active CN116847101B (zh) | 2023-09-01 | 2023-09-01 | 基于Transformer网络的视频比特率阶梯预测方法、系统及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116847101B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100008424A1 (en) * | 2005-03-31 | 2010-01-14 | Pace Charles P | Computer method and apparatus for processing image data |
US20120294355A1 (en) * | 2011-05-17 | 2012-11-22 | Microsoft Corporation | Video transcoding with dynamically modifiable spatial resolution |
CN107257464A (zh) * | 2016-12-29 | 2017-10-17 | 四川大学 | 基于Sobel算子和线性回归的高清视频编码码率控制算法 |
CN110062234A (zh) * | 2019-04-29 | 2019-07-26 | 同济大学 | 一种基于区域恰可察觉失真的感知视频编码方法 |
WO2020037965A1 (zh) * | 2018-08-21 | 2020-02-27 | 北京大学深圳研究生院 | 一种用于视频预测的多运动流深度卷积网络模型方法 |
CN111476133A (zh) * | 2020-03-30 | 2020-07-31 | 杭州电子科技大学 | 面向无人驾驶的前背景编解码器网络目标提取方法 |
CN111726633A (zh) * | 2020-05-11 | 2020-09-29 | 河南大学 | 基于深度学习和显著性感知的压缩视频流再编码方法 |
CN114428866A (zh) * | 2022-01-26 | 2022-05-03 | 杭州电子科技大学 | 一种基于面向对象的双流注意力网络的视频问答方法 |
US20220408097A1 (en) * | 2019-11-14 | 2022-12-22 | Intel Corporation | Adaptively encoding video frames using content and network analysis |
CN115861886A (zh) * | 2022-12-07 | 2023-03-28 | 中国华能集团清洁能源技术研究院有限公司 | 基于视频片段特征匹配的风机叶片分割方法及设备 |
-
2023
- 2023-09-01 CN CN202311116849.0A patent/CN116847101B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100008424A1 (en) * | 2005-03-31 | 2010-01-14 | Pace Charles P | Computer method and apparatus for processing image data |
US20120294355A1 (en) * | 2011-05-17 | 2012-11-22 | Microsoft Corporation | Video transcoding with dynamically modifiable spatial resolution |
CN107257464A (zh) * | 2016-12-29 | 2017-10-17 | 四川大学 | 基于Sobel算子和线性回归的高清视频编码码率控制算法 |
WO2020037965A1 (zh) * | 2018-08-21 | 2020-02-27 | 北京大学深圳研究生院 | 一种用于视频预测的多运动流深度卷积网络模型方法 |
CN110062234A (zh) * | 2019-04-29 | 2019-07-26 | 同济大学 | 一种基于区域恰可察觉失真的感知视频编码方法 |
US20220408097A1 (en) * | 2019-11-14 | 2022-12-22 | Intel Corporation | Adaptively encoding video frames using content and network analysis |
CN111476133A (zh) * | 2020-03-30 | 2020-07-31 | 杭州电子科技大学 | 面向无人驾驶的前背景编解码器网络目标提取方法 |
CN111726633A (zh) * | 2020-05-11 | 2020-09-29 | 河南大学 | 基于深度学习和显著性感知的压缩视频流再编码方法 |
CN114428866A (zh) * | 2022-01-26 | 2022-05-03 | 杭州电子科技大学 | 一种基于面向对象的双流注意力网络的视频问答方法 |
CN115861886A (zh) * | 2022-12-07 | 2023-03-28 | 中国华能集团清洁能源技术研究院有限公司 | 基于视频片段特征匹配的风机叶片分割方法及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN116847101B (zh) | 2024-02-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6928041B2 (ja) | 動画を処理するための方法および装置 | |
US10832059B2 (en) | Feature identification or classification using task-specific metadata | |
CN110399526A (zh) | 视频标题的生成方法、装置和计算机可读存储介质 | |
CN110248189B (zh) | 一种视频质量预测方法、装置、介质和电子设备 | |
US7620257B2 (en) | Image processor | |
CN110019865B (zh) | 海量图片处理方法、装置、电子设备及存储介质 | |
EP3595307A1 (en) | Method for video coding code rate allocation and coding unit code rate allocation, and computer equipment | |
CN114743630B (zh) | 一种基于跨模态对比学习的医学报告生成方法 | |
CN110139102B (zh) | 视频编码复杂度的预测方法、装置、设备和存储介质 | |
CN110111244A (zh) | 图像转换、深度图预测和模型训练方法、装置及电子设备 | |
CN116847101B (zh) | 基于Transformer网络的视频比特率阶梯预测方法、系统及设备 | |
CN113570695A (zh) | 一种图像生成方法、装置及电子设备 | |
CN117576292A (zh) | 三维场景渲染方法及装置、电子设备、存储介质 | |
JPH11234683A (ja) | 画像符号化方法および装置 | |
CN115272667B (zh) | 农田图像分割模型训练方法、装置、电子设备和介质 | |
CN115063803B (zh) | 图像处理方法、装置、存储介质及电子设备 | |
CN109756730B (zh) | 基于视频的评测处理方法、装置、智能设备及存储介质 | |
CN115618268A (zh) | 变压器铁芯线圈的故障率预测方法、装置和计算机设备 | |
CN111856618A (zh) | 气象要素的预测方法及设备 | |
CN118229519B (zh) | 基于多模态融合光流估计的卫星序列图像插值方法及装置 | |
CN112749560A (zh) | 地址文本处理方法、装置、设备及计算机存储介质 | |
CN117744593A (zh) | 一种数据预测方法及相关设备 | |
Jamshidi Avanaki et al. | Deep-BVQM: A Deep-learning Bitstream-based Video Quality Model | |
CN116452600B (zh) | 实例分割方法、系统、模型训练方法、介质及电子设备 | |
US20240267532A1 (en) | Training rate control neural networks through reinforcement learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |