CN117376583B - 一种面向高帧率视频的可回溯帧率转换模型构建方法 - Google Patents
一种面向高帧率视频的可回溯帧率转换模型构建方法 Download PDFInfo
- Publication number
- CN117376583B CN117376583B CN202311201900.8A CN202311201900A CN117376583B CN 117376583 B CN117376583 B CN 117376583B CN 202311201900 A CN202311201900 A CN 202311201900A CN 117376583 B CN117376583 B CN 117376583B
- Authority
- CN
- China
- Prior art keywords
- frame
- time
- space
- frame rate
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 62
- 238000010276 construction Methods 0.000 title description 3
- 238000000034 method Methods 0.000 claims abstract description 78
- 230000006835 compression Effects 0.000 claims abstract description 11
- 238000007906 compression Methods 0.000 claims abstract description 11
- 230000008569 process Effects 0.000 claims description 42
- 230000006870 function Effects 0.000 claims description 20
- 230000004927 fusion Effects 0.000 claims description 8
- 230000003287 optical effect Effects 0.000 claims description 8
- 230000001174 ascending effect Effects 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 3
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 230000005284 excitation Effects 0.000 claims description 3
- 230000000630 rising effect Effects 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 238000012544 monitoring process Methods 0.000 claims description 2
- 238000011084 recovery Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 7
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 230000000007 visual effect Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 206010010356 Congenital anomaly Diseases 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000012733 comparative method Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000002844 melting Methods 0.000 description 1
- 230000008018 melting Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/587—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal sub-sampling or interpolation, e.g. decimation or subsequent interpolation of pictures in a video sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/59—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial sub-sampling or interpolation, e.g. alteration of picture size or resolution
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/85—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Television Systems (AREA)
Abstract
本发明公开了一种面向高帧率视频的可回溯帧率转换模型构建方法,属于视频帧率转换技术领域。解决了现有帧率转换技术将帧率上、下变换割裂处理所引发的难以对视频源进行真实回溯的技术问题。其技术方案为:包括以下步骤:S1、对高帧率视频与低帧率视频之间的帧率转换关系进行建模;S2、从包含视频信息特征的两个基本维度空间维度和时间维度提取时空特征,并进行多元时空特征的融合;S3、从时间以及空间两个层面设计目标损失函数;S4、构建面向高帧率视频的可回溯帧率转换模型。本发明的有益效果为:本发明可在受限带宽下,实现以多元时空特征为指导的高帧率视频的帧率转换,进而实现高帧率视频的可回溯压缩与高质量重建。
Description
技术领域
本发明涉及视频帧率转换技术领域,具体涉及一种面向高帧率视频的可回溯帧率转换模型构建方法。
背景技术
高帧率视频具有流畅感强、细腻度高的特点,开展面向高帧率视频的可回溯帧率转换模型构建方法的研究,有助于突破高帧率视频压缩效率,对于发展视频压缩新理论具有重要价值。
帧率决定视频流畅感。研究表明,伴随帧率增加,视频流畅感和画面细腻度也会随之提升,特别是对于运动镜头的画面跳停和运动模糊现象也将得到极大改善,视觉体验更加舒适。然而,帧率提升也使得视频数据量成倍激增,成为制约高帧率视频普及应用的瓶颈。因此,为适应高帧率视频的应用需求,帧率转换技术应运而生,其可分为帧率下变换技术和帧率上变换技术。
帧率下变换技术通过在编码端以“丢帧”方式降低待编码视频帧率,减少原始视频数据量,使压缩编码后的码流能够与带宽资源相匹配,以缓解“传不了”的窘境。如周等学者在文献《H.264码率控制跳帧算法的优化》中提出的帧率下变化方法,其原理大都以编码块的运动矢量为依据来判定视频帧的取舍,但该方法性能过于依赖运动搜索得到的运动矢量精确度,而运动矢量的获得又受到众多编码参数影响,较粗糙的判断粒度使得方法不敏感,阈值设置困难,准确度有限,难以客观衡量邻近帧之间的关联程度,应用场景受限。此外,肖等学者在文献《自适应去帧/插帧视频处理》中基于直接“丢帧”的帧率下变换,必定会造成“被丢弃帧”整帧信息的全部丢失,邻近帧之间的时空关联性遭到破坏,因不能保留必要的原始视频信息继而引起“过压缩”,导致解码视频出现画面抖动等现象,大大降低观感舒适度,这是制约当前帧率下变换技术发展的根本问题。
帧率上变换技术通过在解码端以“插帧”方式提升解码视频帧率,使重建视频流畅感更强。如RAK等学者在文献《基于受限对称光流的运动补偿插帧》中提出的基于块的运动补偿的帧率上变换技术以及ZHOU等学者在文献《基于外观流的视点合成》中提出的基于光流的运动补偿的帧率上变换技术。但前者会因编码块的误匹配导致内插帧出现块效应,影响帧率提升效果;后者虽然能更细致的描述物体运动,但由于其在实际应用中受限于光照变化,导致光流估计准确性不高,进而影响内插帧的像素合成。
在人工智能浪潮下,卷积神经网络模型对视频特征的提取能力相较于传统方法有了突破式进步,研究发现从时、空两个维度提取视频特征能更好的表征视频信息。基于此,有研究者提出基于多元时空特征的插帧网络,其中,最具代表性的是BAO等人在文献《基于深度感知的视频插帧》中提出的一种融合深度信息的多元时空特征插帧方法。但遗憾的是,该方法对多元时空特征只是简单拼接,这制约了多元时空特征表征视频信息的能力。更值得深思的是,现有基于深度学习的帧率上变换的插帧对象主要是已丢失必要视频信息的低帧率视频。必要视频信息的先天性丢失,势必会抑制卷积神经网络对视频多元时空特征的提取能力,而多元时空特征能否高质量表征原始视频信息,直接影响插帧后重建视频流畅感和画面细腻度。
由此可见,现有帧率转换技术虽然包含帧率上、下变换过程,但两个过程相对独立,各司其责,将视频“压缩—传输—重建”全流程割裂开来。帧率下变换仅着眼于压缩码流是否适配于传输带宽,未充分考虑在解码端发生插帧操作时对必要视频信息的需求;帧率上变换大多是基于降帧后的低帧率视频来提取有限的时空特征以尽可能提高内插帧质量,忽视了在编码端因直接“丢帧”所导致的视频信息先天不足的隐患。因此,以“压缩、重建一体化”为核心思想,探明利用多元时空特征表征视频信息的原理,深入探究在多元时空特征指导下融通帧率上、下变换的帧率转换策略,对实现高帧率视频的可回溯压缩具有重要意义。
发明内容
本发明的目的在于提供一种面向高帧率视频的可回溯帧率转换模型构建方法,以解决现有帧率转换技术将帧率上、下变换割裂处理所引发的难以对视频源进行真实回溯的技术问题,最终在受限带宽下,实现高帧率视频的可回溯压缩与高质量重建,并在客观性能指标与主观视觉质量上证明了本发明方法的有效性。
本发明的发明思想为:本发明提供了一种面向高帧率视频的可回溯帧率转换模型构建方法,首先研究高帧率视频与低帧率视频之间的帧率转换关系,然后,对从空间和时间两个维度提取的视频信息特征进行融合,之后,设计包含时间和空间层面的目标损失函数,最后,根据上述步骤构建面向高帧率视频的可回溯帧率转换模型。
为了实现上述发明目的,本发明采用的技术方案具体为:一种面向高帧率视频的可回溯帧率转换模型构建方法,包括以下步骤:
步骤一、对高帧率视频与低帧率视频之间的帧率转换关系进行建模;
步骤二、从包含视频信息特征的两个基本维度空间维度和时间维度提取时空特征,并进行多元时空特征的融合;
步骤三、从时间以及空间两个层面设计目标损失函数;
步骤四、构建面向高帧率视频的可回溯帧率转换模型。
进一步地,所述步骤一具体包括以下步骤:
2.1、对高帧率视频到低帧率视频的降帧过程进行建模,其公式为其中,S表示降帧映射函数,/>是原高帧率视频,/>是降帧后的低帧率视频,α表示降帧过程中的参数;
2.2、对低帧率视频到高帧率视频的升帧过程进行建模,其公式为其中,U表示升帧映射函数,/>是升帧后的重建高帧率视频,β表示升帧过程中的参数。
进一步地,步骤二具体包括以下步骤:
3.1、从视频帧中提取局部空间特征和时间特征,并将局部空间特征送入空域LSTM网络,学习局部空间特征之间的空间相关性;
3.2、将空域LSTM网络输出的特征送入时域LSTM网络,学习局部空间特征之间的时间相关性;
3.3、将时域LSTM网络输出的特征送入全连接层,得到与视频帧的时间特征同一维度下的全局空间特征;
3.4、将视频帧的时间特征和全局空间特征进行横向级联,得到融合时空特征信息的特征图NC,H,W,并对其进行特征压缩,得到包含时空特征信息的压缩特征图NC,1,1;
3.5、对压缩特征图NC,1,1进行激励学习,得到激励学习后的特征图MC,1,1,然后利用Sigmoid激活函数将其作为权重与NC,H,W逐通道相乘,得到融合后的多元时空特征图MC,H,W。
进一步地,所述步骤三具体包括以下步骤:
4.1、利用L2范数从时间层面计算降帧和升帧过程中所获时间特征的差异,时间特征损失函数为其中/>为降帧过程中的时间特征,其公式为其中f(·)表示双线性插值操作,It和It+1表示降帧过程中的邻近帧,Fi→t+1和Ft+1→t表示It和It+1之间的双向光流,/>为升帧过程中的时间特征,其公式为/>其中f(·)表示双线性插值操作,/>和表示升帧过程中的邻近帧,/>和/>表示/>和/>之间的双向光流;
4.2、利用KL散度和L1范数从空间层面计算降帧和升帧过程中所获空间特征的差异,空间特征损失函数为其中pt和/>分别表示降帧和升帧过程中的纹理特征的像素分布,It和/>分别表示降帧和升帧过程中的纹理特征。
进一步地,所述步骤四具体包括以下步骤:
5.1、从时、空两个维度提取原始高帧率视频的时间特征和空间特征,并对其进行时空融合;
5.2、利用融合后的多元时空特征生成满足码率约束条件的低帧率视频;
5.3、利用时空特征恢复模块恢复出隐匿于低帧率视频中的必要视频信息的时空特征,并对其进行时空融合;
5.4、利用融合后的多元时空特征指导回溯原始高帧率视频;
5.5、在模型的训练过程中,利用降帧过程中提取的多元时空特征从时间和空间两个维度监督升帧过程。
与现有技术相比,本发明的有益效果为:
(1)将压缩重建一体化的帧率转换模型应用在高帧率视频帧率转换技术领域,利用深度学习拟合低帧率视频和高帧率视频之间的帧率转换关系,对原始高帧率视频进行可回溯的帧率转换,并取得了良好的效果。
(2)通过构建面向高帧率视频的可回溯帧率转换模型,有效解决了现有帧率转换技术将帧率上、下变换割裂处理所引发的难以对视频源进行真实回溯的问题。
(3)通过在2倍帧率转化尺度下,与先经自适应去帧、再经MEMC-Net插帧网络的主流帧率转换方法比较,重建视频的主、客观质量均有所提升,证实了该方法在高帧率视频帧率转换领域的应用潜力。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
图1为本发明提供的一种面向高帧率视频的可回溯帧率转换模型构建方法的流程图。
图2为本发明中多元时空特征融合的示意图。
图3为本发明中构建的面向高帧率视频的可回溯帧率转换模型示意图。
图4为本发明在2倍帧率转换尺度下所提模型与对比方法在客观性能指标上的比较结果示意图。
图5为本发明在2倍帧率转换尺度下所提模型与对比方法在主观视觉质量上的比较结果示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。当然,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
实施例1
参见图1至图4,本实施例提供其技术方案为,一种面向高帧率视频的可回溯帧率转换模型构建方法,包括以下步骤:
步骤一,对高帧率视频与低帧率视频之间的帧率转换关系进行建模;
步骤二,从包含视频信息特征的两个基本维度空间维度和时间维度提取时空特征,并进行多元时空特征的融合;
步骤三,从时间以及空间两个层面设计目标损失函数;
步骤四,构建面向高帧率视频的可回溯帧率转换模型。
具体地,步骤一中,对高帧率视频与低帧率视频之间的帧率转换关系进行建模,包括下述步骤:
1)对高帧率视频到低帧率视频的降帧过程进行建模,其公式为其中,S表示降帧映射函数,/>是原高帧率视频,/>是降帧后的低帧率视频,α表示降帧过程中的参数;
2)对低帧率视频到高帧率视频的升帧过程进行建模,其公式为其中,U表示升帧映射函数,/>是升帧后的重建高帧率视频,β表示升帧过程中的参数。
具体地,步骤二中,参照图2,从包含视频信息特征的两个基本维度空间维度和时间维度提取时空特征,并进行多元时空特征的融合,包括下述步骤:
1)从视频帧中提取局部空间特征和时间特征,并将局部空间特征送入空域LSTM网络,学习局部空间特征之间的空间相关性;
2)将空域LSTM网络输出的特征送入时域LSTM网络,学习局部空间特征之间的时间相关性;
3)将时域LSTM网络输出的特征送入全连接层,得到与视频帧的时间特征同一维度下的全局空间特征;
4)将视频帧的时间特征和全局空间特征进行横向级联,得到融合时空特征信息的特征图NC,H,W,并对其进行特征压缩,得到包含时空特征信息的压缩特征图NC,1,1;
5)对压缩特征图NC,1,1进行激励学习,得到激励学习后的特征图MC,1,1,然后利用Sigmoid激活函数将其作为权重与NC,H,W逐通道相乘,得到融合后的多元时空特征图MC,H,W。
具体地,步骤三中,从时间以及空间两个层面设计目标损失函数,包括下述步骤:
1)利用L2范数从时间层面计算降帧和升帧过程中所获时间特征的差异,时间特征损失函数为其中/>为降帧过程中的时间特征,其公式为其中f(·)表示双线性插值操作,It和It+1表示降帧过程中的邻近帧,Fi→t+1和Ft+1→t表示It和It+1之间的双向光流,/>为升帧过程中的时间特征,其公式为/>其中f(·)表示双线性插值操作,/>和表示升帧过程中的邻近帧,/>和/>表示/>和/>之间的双向光流;
2)利用KL散度和L1范数从空间层面计算降帧和升帧过程中所获空间特征的差异,空间特征损失函数为其中pt和/>分别表示降帧和升帧过程中的纹理特征的像素分布,It和/>分别表示降帧和升帧过程中的纹理特征。
具体地,步骤四中,参照图3,构建面向高帧率视频的可回溯帧率转换模型,包括下述步骤:
1)从时、空两个维度提取原始高帧率视频的时间特征和空间特征,并对其进行时空融合;
2)利用融合后的多元时空特征生成满足码率约束条件的低帧率视频;
3)利用时空特征恢复模块恢复出隐匿于低帧率视频中的必要视频信息的时空特征,并对其进行时空融合;
4)利用融合后的多元时空特征指导回溯原始高帧率视频;
5)在模型的训练过程中,利用降帧过程中提取的多元时空特征从时间和空间两个维度监督升帧过程。
为了检验本实施例提出方法的性能,将本实施例的方法与先经自适应去帧、再经MEMC-Net插帧网络的主流帧率转换方法进行了对比。客观评价上,采用衡量图像质量的两大客观指标,即峰值信噪比PSNR和结构相似度SSIM作为评价标准。实验中的数据集由通用测试序列中50帧/s和来自YouTube的60帧/s的逐行扫描高帧率视频组成。
本发明在2倍帧率转化尺度下与对比方法在客观性能指标上的实验对比结果见图4。从客观性能指标峰值信噪比PSNR上来看,本实施例的方法的PSNR为35.99dB,优于对比方法的33.14dB。从客观性能指标结构相似度SSIM上来看,本实施例的方法的SSIM为0.968,优于对比方法的0.939。
实施例2
在实施例1的基础上,本实施例在2倍帧率转化尺度下与对比方法在主观性能指标上的实验对比结果见图5。主观评价上,采用主观视觉质量作为评价标准。从主观性能指标主观视觉质量上来看,本实施例的方法对于记分牌(上侧方框)与20号球员的腿部(下侧方框),对比方法的重建视频存在较为明显的运动模糊,而本实施例的方法则将局部细节恢复得更加逼真,在视频帧的信息保留与细节呈现上均更胜一筹。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (1)
1.一种面向高帧率视频的可回溯帧率转换模型构建方法,其特征在于,包括以下步骤:
S1、对高帧率视频与低帧率视频之间的帧率转换关系进行建模;
S2、从包含视频信息特征的两个基本维度空间维度和时间维度提取时空特征,并进行多元时空特征的融合;
S3、从时间以及空间两个层面设计目标损失函数;
S4、构建面向高帧率视频的可回溯帧率转换模型;
所述步骤S1包括以下步骤:
S11、对高帧率视频到低帧率视频的降帧过程进行建模,其公式为其中,S表示降帧映射函数,/>是原高帧率视频,/>是降帧后的低帧率视频,α表示降帧过程中的参数;
S12、对低帧率视频到高帧率视频的升帧过程进行建模,其公式为其中,U表示升帧映射函数,/>是升帧后的重建高帧率视频,β表示升帧过程中的参数;
所述步骤S2包括以下步骤:
S21、从视频帧中提取局部空间特征和时间特征,并将局部空间特征送入空域LSTM网络,学习局部空间特征之间的空间相关性;
S22、将空域LSTM网络输出的特征送入时域LSTM网络,学习局部空间特征之间的时间相关性;
S23、将时域LSTM网络输出的特征送入全连接层,得到与视频帧的时间特征同一维度下的全局空间特征;
S24、将视频帧的时间特征和全局空间特征进行横向级联,得到融合时空特征信息的特征图NC,H,W,并对其进行特征压缩,得到包含时空特征信息的压缩特征图NC,1,1;
S25、对压缩特征图NC,1,1进行激励学习,得到激励学习后的特征图MC,1,1,然后利用Sigmoid激活函数将其作为权重与NC,H,W逐通道相乘,得到融合后的多元时空特征图MC,H,W;
所述步骤S3包括以下步骤:
S31、利用L2范数从时间层面计算降帧和升帧过程中所获时间特征的差异,时间特征损失函数为其中/>为降帧过程中的时间特征,其公式为其中f(·)表示双线性插值操作,It和It+1表示降帧过程中的邻近帧,Ft→t+1和Ft+1→t表示It和It+1之间的双向光流,/>为升帧过程中的时间特征,其公式为/>其中f(·)表示双线性插值操作,/>和表示升帧过程中的邻近帧,/>和/>表示/>和/>之间的双向光流;
S32、利用KL散度和L1范数从空间层面计算降帧和升帧过程中所获空间特征的差异,空间特征损失函数为其中pt和/>分别表示降帧和升帧过程中的纹理特征的像素分布,It和/>分别表示降帧和升帧过程中的纹理特征;
所述步骤S4包括以下步骤:
S41、从时、空两个维度提取原始高帧率视频的时间特征和空间特征,并对其进行时空融合;
S42、利用融合后的多元时空特征生成满足码率约束条件的低帧率视频;
S43、利用时空特征恢复模块恢复出隐匿于低帧率视频中的必要视频信息的时空特征,并对其进行时空融合;
S44、利用融合后的多元时空特征指导回溯原始高帧率视频;
S45、在模型的训练过程中,利用降帧过程中提取的多元时空特征从时间和空间两个维度监督升帧过程。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311201900.8A CN117376583B (zh) | 2023-09-18 | 2023-09-18 | 一种面向高帧率视频的可回溯帧率转换模型构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311201900.8A CN117376583B (zh) | 2023-09-18 | 2023-09-18 | 一种面向高帧率视频的可回溯帧率转换模型构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117376583A CN117376583A (zh) | 2024-01-09 |
CN117376583B true CN117376583B (zh) | 2024-06-21 |
Family
ID=89399243
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311201900.8A Active CN117376583B (zh) | 2023-09-18 | 2023-09-18 | 一种面向高帧率视频的可回溯帧率转换模型构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117376583B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114692765A (zh) * | 2022-03-31 | 2022-07-01 | 武汉大学 | 视频时空超分模型构建方法、装置、设备及可读存储介质 |
CN115883869A (zh) * | 2022-11-28 | 2023-03-31 | 江汉大学 | 基于Swin Transformer的视频帧插帧模型的处理方法、装置及处理设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112070664B (zh) * | 2020-07-31 | 2023-11-03 | 华为技术有限公司 | 一种图像处理方法以及装置 |
CN115689917A (zh) * | 2022-10-20 | 2023-02-03 | 浙江大学 | 一种基于深度学习的高效时空超分辨率视频压缩复原方法 |
-
2023
- 2023-09-18 CN CN202311201900.8A patent/CN117376583B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114692765A (zh) * | 2022-03-31 | 2022-07-01 | 武汉大学 | 视频时空超分模型构建方法、装置、设备及可读存储介质 |
CN115883869A (zh) * | 2022-11-28 | 2023-03-31 | 江汉大学 | 基于Swin Transformer的视频帧插帧模型的处理方法、装置及处理设备 |
Also Published As
Publication number | Publication date |
---|---|
CN117376583A (zh) | 2024-01-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107105278B (zh) | 运动矢量自动生成的视频编解码系统 | |
CN112203093B (zh) | 一种基于深度神经网络的信号处理方法 | |
CN101668205B (zh) | 基于残差宏块自适应下采样立体视频压缩编码方法 | |
CN114677304B (zh) | 一种基于知识蒸馏和深度神经网络的图像去模糊算法 | |
CN111586412B (zh) | 高清视频处理方法、主设备、从设备和芯片系统 | |
CN110557646B (zh) | 一种智能视点间的编码方法 | |
CN112801900A (zh) | 一种基于双向循环卷积生成对抗网络的视频模糊去除方法 | |
CN112019861B (zh) | 基于关键帧指导超分辨率的视频压缩方法及装置 | |
CN111008938A (zh) | 一种基于内容和连续性引导的实时多帧比特增强方法 | |
CN112488922B (zh) | 一种基于光流插值的超分辨率处理方法 | |
CN112218072A (zh) | 一种基于解构压缩和融合的视频编码方法 | |
CN111669601B (zh) | 一种3d视频智能多域联合预测编码方法及装置 | |
CN110706155A (zh) | 一种视频超分辨率重建方法 | |
CN113850718A (zh) | 一种基于帧间特征对齐的视频同步时空超分方法 | |
CN115278262A (zh) | 一种端到端智能视频编码方法及装置 | |
CN116167920A (zh) | 一种基于超分辨率和先验知识的图像压缩与重建方法 | |
CN117376583B (zh) | 一种面向高帧率视频的可回溯帧率转换模型构建方法 | |
CN116228550A (zh) | 一种基于生成对抗网络的图像自增强去雾算法 | |
CN113068041B (zh) | 一种智能仿射运动补偿编码方法 | |
CN112929629B (zh) | 一种智能虚拟参考帧生成方法 | |
CN103069798B (zh) | 用于在实施变换域估计过程中对至少一个图像进行编码和解码的方法和装置 | |
CN113949872B (zh) | 一种基于3D-Gradient引导的屏幕内容视频编码码率控制方法 | |
CN113691792B (zh) | 基于3d卷积的视频比特位深扩展方法、装置及介质 | |
CN115396683A (zh) | 视频优化处理方法、装置、电子设备及计算机可读介质 | |
CN108833920A (zh) | 一种基于光流和块匹配的dvc边信息融合方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |