CN113382247B - 基于间隔观测的视频压缩感知系统及方法、设备及存储介质 - Google Patents

基于间隔观测的视频压缩感知系统及方法、设备及存储介质 Download PDF

Info

Publication number
CN113382247B
CN113382247B CN202110640303.XA CN202110640303A CN113382247B CN 113382247 B CN113382247 B CN 113382247B CN 202110640303 A CN202110640303 A CN 202110640303A CN 113382247 B CN113382247 B CN 113382247B
Authority
CN
China
Prior art keywords
frame
key frame
layer
optical flow
frames
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110640303.XA
Other languages
English (en)
Other versions
CN113382247A (zh
Inventor
赵至夫
潘庆哲
谢雪梅
李佳楠
石光明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202110640303.XA priority Critical patent/CN113382247B/zh
Publication of CN113382247A publication Critical patent/CN113382247A/zh
Application granted granted Critical
Publication of CN113382247B publication Critical patent/CN113382247B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • G06T5/90
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/593Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial prediction techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了一种基于间隔观测的视频压缩感知系统及方法、设备及存储介质,所述系统包括图像压缩感知网络和帧合成网络,所述图像压缩感知网络用于对关键帧进行间隔观测,根据观测值生成关键帧的初始恢复,并对初始恢复进行图像增强,所述帧合成网络用于采集关键帧的多级特征,预测多级特征间的光流,并基于此估计相邻关键帧间的中间帧的特征,合成中间帧;本发明能够减少视频重构的时间冗余,提高重构视频帧的质量和效率。

Description

基于间隔观测的视频压缩感知系统及方法、设备及存储介质
技术领域
本发明属于视频处理技术领域,特别是涉及一种基于间隔观测的视频压缩感知系统及方法、设备及存储介质。
背景技术
压缩感知(CS)是一种信号压缩采样理论,该技术以低于奈奎斯特速率的采样率获取信号的观测值,并通过重构算法以高概率恢复原始信号,CS已应用于许多信号处理领域,如医学成像、摄像机、雷达成像和视频传输等,随着单像素相机等硬件系统的出现和普及,压缩感知应用到静态图像压缩方面,显示出卓越的潜力,压缩感知技术也为医学成像中缩短成像时间,提高成像质量等提出了新的可研究方向;如今,压缩感知不在局限于静止图像,而是推广到视频,与静态图像相比,视频在压缩过程中需要考虑图像时间维的相关性,因此利用压缩感知理论对视频进行处理更为复杂。
根据对视频的观测方式,视频压缩感知方法分为时间视频压缩感知和空间视频压缩感知,对于时间视频压缩感知方法,其利用不同的编码模式对视频中的动态帧进行建模,之后使用低速探测器整合这些建模的动态帧形成对视频的观测,再利用重构算法将二维观测恢复成三维视频;空间视频压缩感知方法利用数字微镜设备(Digital Mirror Device,DMD)逐一对视频帧进行观测,这种观测具有较高的时间分辨率,利用重构算法首先恢复视频帧,再结合运动估计和运动补偿的重建来增强重构效果。
现有的空间视频压缩感知方法逐帧从场景中获得观测,常用的观测策略有均匀分布策略和非均匀分布策略,在均匀分布策略下,每帧的观测值数目相等,相对应的重构算法利用图像压缩感知方法单独恢复每一帧;非均匀分布策略下,关键帧比非关键帧的观测数目更高,这在一定程度上减少了时间上的冗余,同时关键帧可以提高非关键帧的重构质量;尽管非均匀分布策略将视频帧分为关键帧和非关键帧以提高信息的利用率,但这种观测方式在时间维度上仍然存在大量的冗余,其对视频的每一帧进行观测,相邻帧之间的相似度很高,没有充分利用视频的时间结构,使重构效果的提升有限,视频信号的潜力仍然需要进一步挖掘。
发明内容
本发明实施例的目的在于提供一种基于间隔观测的视频压缩感知系统及方法,将视频帧分为关键帧和非关键帧,仅对视频帧中的关键帧进行间隔观测,再利用关键帧之间的时间关联性,生成非关键帧,减少视频的大量时间冗余,提升了视频重构的效果。
本发明实施例的目的还在于提供一种电子设备及计算机可读存储介质。
为解决上述技术问题,本发明所采用的技术方案是,基于间隔观测的视频压缩感知系统,包括图像压缩感知网络和帧合成网络,所述图像压缩感知网络包括图像观测层、初始恢复层和增强恢复模块,所述帧合成网络包括金字塔特征提取器、光流预测器和中间帧合成器;
所述图像观测层,用于对视频中的关键帧进行间隔观测;
所述初始恢复层,用于生成关键帧的初始恢复;
所述增强恢复模块,用于对初始恢复的关键帧进行图像增强;
所述金字塔特征提取器,用于提取相邻关键帧中的多层级特征;
所述光流预测器,用于预测相邻关键帧之间的光流;
所述中间帧合成器,用于根据相邻关键帧之间的多层级特征和光流生成中间帧。
进一步的,所述图像观测层由第一卷积层组成,所述第一卷积层的卷积核大小为32、卷积核数为128、卷积步长为32;
所述初始恢复层由第一反卷积层组成,所述第一反卷积层的卷积核大小为32、卷积核数为1、卷积步长为32;
所述增强恢复模块由第二卷积层、第一残差块、第二残差块、第三残差块、第四残差块、第五残差块、第三卷积层、第四卷积层依次连接组成,所述第二卷积层的卷积核大小为9,卷积核数是128,卷积步长为1;所述第三卷积层的卷积核大小为3,卷积核数是64,卷积步长为1;所述第四卷积层的卷积核大小为9,卷积核数是1,卷积步长为1;所述第一残差块~第五残差块结构相同,均由两个卷积层连接构成,两个卷积层的卷积核大小为3、卷积核数目是64、卷积步长为1。
进一步的,所述金字塔特征提取器由第一残差卷积层、第二残差卷积层、第三残差卷积层、第四残差卷积层、第五残差卷积层、第六残差卷积层构成,六个残差卷积层的卷积核大小均为3,第一残差卷积层的卷积步长为1,第二残差卷积层~第六残差卷积层的卷积步长均为2,卷积核数目依次为32、32、64、96、128、196。
进一步的,所述光流预测器设置数量为六个,其输入分别与所述金字塔特征提取器的各残差卷积层连接,输出分别与同层级的中间帧合成器、下一层级的光流预测器连接;
所述光流预测器包括第一特征变形层、特征关联层、残差光流预测模块和光流合成模块;
所述第一特征变形层,用于利用上一层级预测的光流实现对后一关键帧当前层级特征的变形,即利用l+1层级预测的光流实现对后一关键帧l层特征的变形,所述l为光流预测的层级数目变量,l=1,2,...,6;
所述特征关联层,用于计算相邻关键帧的特征之间的关联性,获得前一关键帧与后一关键帧的运动信息;
所述残差光流预测模块,用于对特征关联层的输出进行映射获得残差光流,所述残差光流预测模块由第五卷积层、第六卷积层、第七卷积层、第八卷积层依次连接组成,所述残差光流预测模块中各卷积层的卷积核大小均为3,卷积步长均为1,卷积核数依次为128、64、32和2;
所述光流合成层,用于根据残差光流与l+1层的预测光流,获得前一关键帧到后一关键帧的光流及后一关键帧到前一关键帧的光流。
进一步的,所述中间帧合成器设置数量为六个,其输出与下一层级的中间帧合成器连接,所述中间帧合成器包括中间帧光流估计模块、中间帧特征合成模块和中间帧生成模块;
所述中间帧光流估计模块,用于利用相邻关键帧之间的光流估计关键帧与中间帧之间的光流;
所述中间帧特征合成模块,用于利用前一关键帧和后一关键帧的特征合成中间帧的特征;
所述中间帧生成模块,用于生成中间帧,所述中间帧生成模块由第九卷积层、第十卷积层、第十一卷积层和第十二卷积层依次连接组成,所述中间帧生成模块各卷积层的卷积核大小均为3、卷积步长均为1,六个中间帧生成模块的第九卷积层卷积核数目分别为33、33、65、97、129、192,第十卷积层~第十二卷积层的卷积核数目分别为64、32、1。
基于间隔观测的视频压缩感知方法,包括以下步骤:
步骤1,以T个视频帧为周期将视频划分为i个观测周期,将各观测周期内的第一帧作为关键帧,其余帧作为中间帧;
步骤2,构建图像压缩感知网络,间隔观测视频中的关键帧,并根据观测值进行初始恢复和增强获得关键帧的重构视频帧;
步骤3,构建帧合成网络,将重构视频帧输入帧合成网络,利用相邻关键帧的特征及光流重构中间帧;
步骤4,将关键帧与中间帧拼接得到压缩感知重构的视频。
进一步的,所述步骤3中重构中间帧的过程如下:
步骤31,利用上一层级预测的光流对后一关键帧的特征进行变形,变形过程如公式(1)所示:
Figure BDA0003107334190000041
公式(1)中flow0→T,l+1表示l+1层光流预测器预测的前一关键帧到后一关键帧的光流,up2表示对光流值和分辨率进行上采样,FT,l表示后一关键帧的l层特征,x+d表示前一关键帧中的空间位置x在后一关键帧中的空间位置,
Figure BDA0003107334190000042
表示变形后的后一关键帧中空间位置x+d的l层特征;
步骤32,使用公式(2)计算前一关键帧与后一关键帧的关联性:
Figure BDA0003107334190000043
公式(2)中C表示特征维度,d表示空间位置x从前一关键帧和后一关键帧的位移量,F0,l(x)表示前一关键帧中空间位置x的l层特征,
Figure BDA0003107334190000044
表示变形后后一关键帧中空间位置x+d的l层特征,corr(x,d,l)表示F0,l(x)和
Figure BDA0003107334190000045
的关联性;
步骤33,对corr(x,d,l)进行映射得到残差光流,使用残差光流计算前一关键帧到后一关键帧的l层预测光流flow0→T,l和后一关键帧到前一关键帧的l层预测光流flowT→0,l
步骤34,使用公式(3)分别估计中间帧到前一关键帧的光流及其到后一关键帧的光流:
Figure BDA0003107334190000046
公式(3)中flowt→0,l、flowt→T,l分别表示中间帧到前一关键帧的光流、中间帧到后一关键帧的光流,a、A分别为中间帧和关键帧对应的时刻;
步骤35,使用公式(4)合成中间帧的特征,再基于此合成中间帧;
Figure BDA0003107334190000051
公式(4)中Ft,l表示中间帧的l层特征,F0,l、FT,l分别表示前一关键帧的l层特征、后一关键帧的l层特征,warp(FT,l,flowt→T,l)表示利用flowt→T,l对后一关键帧的l层特征进行变形得到的特征,warp(F0,l,flowt→0,l)表示利用flowt→0,l对前一关键帧的l层特征进行变形得到的特征。
一种电子设备,包括处理器、存储器和通信总线,其中,处理器、存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述的方法步骤。
一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法步骤。
本发明的有益效果是:本发明将视频帧分为关键帧和中间帧,对关键帧进行间隔观测,为关键帧分配了更多的观测资源,能挖掘视频信号的自身潜能,提高关键帧的重构质量,进而利用视频的语义结构和时空关联性,以显示运动建模方式合成未观测的中间帧,提升了视频压缩感知的效果,减少了视频重构中的大量时间冗余,提高了视频压缩感知的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的流程图。
图2是帧合成网络的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
基于间隔观测的视频压缩感知系统包括图像压缩感知网络和帧合成网络,所述图像压缩感知网络包括图像观测层、初始恢复层和增强恢复模块,所述帧合成网络包括金字塔特征提取器、光流预测器和中间帧合成器;图像压缩感知网络用于间隔观测视频中的关键帧,基于观测值对关键帧进行初始恢复,并对初始恢复图像进行图像增强,帧合成网络用于提取关键帧中的多级特征,基于多级特征预测关键帧间的光流,估计相邻关键帧间的中间帧的特征,并合成中间帧。
如图1所示,基于间隔观测的视频压缩感知方法,包括以下步骤:
步骤1,如下所示,以T帧为周期将视频X划分为i个观测周期,将各观测周期内的第一帧作为关键帧,各观测周期内剩余的T-1帧作为中间帧;
Figure BDA0003107334190000061
其中i表示间隔观测周期的数目变量,i=0,1,2,...,IiT表示第i个观测周期中的关键帧;
步骤2,构建图像压缩感知网络,图像压缩感知网络包括图像观测层、初始恢复层和增强恢复模块,分别用于间隔观测视频中的关键帧,对关键帧进行初始恢复和增强;
图像观测层为卷积核大小为32、卷积核数为128、卷积步长为32的第一卷积层,用于对视频中的关键帧进行观测,图像观测层观测关键帧的过程如下:yiT=ΦxiT,其中Φ表示观测矩阵,xiT表示IiT的向量化形式,yiT表示xiT的观测值,视频X的观测值Y=[y0,yT,…,yiT,…];
初始恢复层为卷积核大小为32、卷积核数为1、卷积步长为32的第一反卷积层,用以生成关键帧的初始恢复,设第一反卷积层Dec利用观测值对关键帧进行初始恢复可表示为:
Figure BDA0003107334190000062
其中
Figure BDA0003107334190000063
表示观测值Y=[y0,yT,…,yiT,…]的初始恢复值,在同样的等效观测率下,间隔观测给关键帧分配了更多的观测资源,使观测帧的重构质量得到提高;
增强恢复模块包括依次连接的第二卷积层、第一残差块、第二残差块、第三残差块、第四残差块、第五残差块、第三卷积层和第四卷积层,增强恢复模块各层级的卷积核数目呈递减趋势,最后一个卷积层的卷积核数目为1,对应输出灰度图的通道数,各层级能够恢复出关键帧中的细节信息,前几个层级用于补充场景中的目标级别信息,后几个层级用于区域信息乃至像素块的完善,以提高关键帧的重构质量;
第二卷积层的卷积核大小为9,卷积核数是128,卷积步长为1;第三卷积层的卷积核大小为3,卷积核数是64,卷积步长为1;第四卷积层的卷积核大小为9,卷积核数是1,卷积步长为1;所有残差块结构相同,每个残差块由两个卷积层依次连接构成残差支路,两个卷积层的卷积核大小均为3、卷积核数目是64、卷积步长为1;
步骤3,构建帧合成网络,如图2所示,帧合成网络包括金字塔特征提取器、光流预测器和中间帧合成器,分别提取关键帧中的多级特征,生成关键帧之间的光流,根据相邻关键帧的特征及光流重构未观测的中间帧;
由于关键帧中含有多层级语义结构:像素点→直线→轮廓→目标局部→整体目标→整个场景,需要设置多层残差卷积层依次提取低层级语义和高层级语义,金字塔特征提取器由第一残差卷积层、第二残差卷积层、第三残差卷积层、第四残差卷积层、第五残差卷积层和第六残差卷积层依次连接组成,六个残差卷积层的卷积核大小均为3,第一残差卷积层的卷积步长为1,第二残差卷积层~第六残差卷积层的卷积步长均为2,卷积核数目依次为32、32、64、96、128、196;
将重构的相邻前一关键帧和后一关键帧分别输入金字塔特征提取器,得到各自的多层级特征,将其分别输入对应的六个光流预测器和六个中间帧合成器,光流预测器分别预测各层级中前一关键帧与后一关键帧的光流,并将其分别输入同层级的中间帧合成器和下一层级的光流预测器,同层级的中间帧合成器据此合成前一关键帧与后一关键帧间的中间帧,并将其输入下一层级的中间帧合成器,下一层级的光流预测器和中间帧合成器重复上述过程,得到最终合成的中间帧;
光流预测器包括第一特征变形层、特征关联层、残差光流预测模块和光流合成模块,第一特征变形层利用上一层级预测的光流对后一个关键帧的特征进行变形,以缩小前一关键帧与后一关键帧的空间距离,从而缩小搜索空间,更容易求解残差光流,所述变形过程可表示为:
Figure BDA0003107334190000071
其中flow0→T,l+1表示l+1层光流预测器预测的前一关键帧到后一关键帧的光流,up2表示对光流值和分辨率进行上采样,FT,l表示后一关键帧的l层特征,x+d表示前一关键帧中的空间位置x在后一关键帧中的空间位置,
Figure BDA0003107334190000072
表示变形后的后一关键帧中空间位置x+d的l层特征,l表示金字塔特征提取器的数目变量,l=1,2,...,6,鉴于金字塔特征提取器与光流预测器、中间帧合成器数目相同,l也为光流预测器、中间帧合成器的层级数目变量,即就是金字塔提取器、光流预测器、中间帧合成器的层级数目变量。
特征关联层通过计算特征之间的关联性获得前一关键帧与后一关键帧间的运动信息,关联性计算如下:
Figure BDA0003107334190000081
C表示特征维度,d表示空间位置x从前一关键帧和后一关键帧的位移量,F0,l(x)表示前一关键帧中空间位置x的l层特征,
Figure BDA0003107334190000082
表示变形后后一关键帧中空间位置x+d的l层特征,corr(x,d,l)表示F0,l(x)与
Figure BDA0003107334190000083
的关联性;
对于每个空间位置进行上述操作得到Dl 2×Wl×Hl的张量,其中Dl表示l层光流预测器的最大搜索范围,Wl表示l层特征的宽度,Hl表示l层特征的高度;
残差光流预测模块包括依次连接的第五卷积层、第六卷积层、第七卷积层和第八卷积层,所述第五卷积层~第八卷积层的卷积核大小均为3,卷积步长均为1,卷积核数依次为128、64、32和2,残差光流预测模块用于对特征关联层的输出结果进行映射得到残差光流;
光流合成层将残差光流与l+1层光流预测器输出的光流flow0→T,l+1相加,获得前一关键帧到后一关键帧的l层预测光流flow0→T,l,更换光流预测器的输入顺序得到后一关键帧到前一关键帧的l层预测光流flowT→0,l
中间帧合成器包括中间帧光流估计模块、中间帧特征合成模块和中间帧生成模块,中间帧光流估计模块利用相邻关键帧之间的光流估计关键帧与中间帧之间的光流,估计过程如下:
Figure BDA0003107334190000084
Figure BDA0003107334190000085
其中flowt→0,l、flowt→T,l分别表示中间帧到前一关键帧的光流、中间帧到后一关键帧的光流,a、A分别为中间帧和关键帧对应的时刻;
中间帧特征合成模块利用前一关键帧的特征和后一关键帧的特征合成中间帧的特征,合成过程表示为:
Figure BDA0003107334190000091
Ft,l表示中间帧的l层特征,F0,l、FT,l分别表示前一关键帧的l层特征、后一关键帧的l层特征,warp(FT,l,flowt→T,l)表示利用flowt→T,l对后一关键帧的l层特征进行变形得到的特征,warp(F0,l,flowt→0,l)表示利用flowt→0,l对前一关键帧的l层特征进行变形得到的特征;
中间帧生成模块由依次连接的第九卷积层、第十卷积层、第十一卷积层和第十二卷积层构成,将中间帧的l层特征Ft,l输入到中间帧生成模块生成中间帧;
第九卷积层的卷积核大小为3,卷积步长为1,卷积核数目与层级有关,从第一层级到第六层级其卷积核数目依次为33、33、65、97、129、192,第十卷积层~第十二卷积的卷积核大小均为3、卷积步长均为1,卷积核数目依次为64、32、1;
步骤4,将重构的关键帧与中间帧拼接,获得实时、高质量、高帧率的压缩感知重构视频结果。
本发明使用间隔观测对视频数据进行观测时,在同样的等效观测率下,为关键帧分配了更多的观测资源,并使用增强恢复模块对关键帧中的细节信息进行补充完善,提高了关键帧的重构质量,在重构中间帧时,通过采集相邻关键帧的多级特征对运动显示建模(光流预测器),利用多层级的光流和特征合成中间帧,逐步提高中间帧的重构质量,本发明充分利用视频中的时间冗余,减少了对视频帧的观测量,提高了视频压缩感知重构的效率;将本发明所述视频压缩感知方法用于医学成像(如MIR成像)时,能够提升数据的采集、传输和处理效率,缩短成像时间,提高成像的质量。
步骤2中训练图像压缩感知网络的过程如下:
步骤21,在数据集中选择50个视频,随机选择2000个视频帧作为第一训练集;
步骤22,使用上述卷积层构建图像感知压缩网络,将第一训练集中的视频帧输入图像感知压缩网络,对视频帧进行观测重构,输出视频帧重构结果;
步骤23,使用均方误差损失函数和梯度下降法更新图像压缩感知网络的各层参数,将更新后的参数赋值给图像压缩感知网络,得到优化的图像压缩感知网络。
参数更新过程如下:
步骤231,将学习率α设置为0.0001,迭代次数设置为30000,每次迭代在第一训练集中选择的样本数目为16;
步骤232,设图像压缩感知网络的参数维度为N1,计算图像压缩感知网络重构图像和原始图像的均方误差损失,网络梯度为(▽J)[:N1];
步骤233,使用图像压缩感知网络梯度向量对网络参数进行更新,公式如下:
Figure BDA0003107334190000101
其中,
Figure BDA0003107334190000102
表示更新后的N1维图像压缩感知网络参数,θs表示更新前的N1维图像压缩感知网络参数;
步骤234,判断迭代次数是否达到30000,若没有达到,重复步骤232-步骤233,若达到了则停止迭代,最后将均方误差损失最小的网络参数赋值给各层,得到优化的图像压缩感知网络。
步骤3中训练帧合成网络的过程如下:
步骤31,在数据集中选择133个视频组成第二训练集;
步骤32,在第二训练集中随机抽取连续的T+1帧视频帧,将第1帧和第T+1帧作为帧合成网络的输入,将剩余帧作为帧合成网络的标签,实现对中间帧的预测;
步骤33,使用均方误差损失函数和梯度下降法更新帧合成网络的各层参数,将更新后的参数赋值给帧合成网络,得到优化的帧合成网络;
步骤331,将学习率α设置为0.00002,迭代次数设置为30000,每次迭代在第二训练集中选择的样本数目为8;
步骤332,使用步骤222、步骤223对帧合成网络参数进行更新;
步骤333,判断迭代次数是否达到30000,若没有达到,重复步骤332,若达到了则停止迭代,最后将均方误差损失最小的网络参数赋值给各层,得到优化的帧合成网络;
将图像压缩感知网络和帧合成网络联合训练的过程如下:
步骤A,联合图像压缩感知网络和帧合成网络构成间隔观测完全重构网络,在第二训练集中随机抽取连续的T+1帧,将第1帧和第T+1帧作为间隔观测完全重构网络的输入,将全部视频帧均作为间隔观测完全重构网络的标签,实现对视频帧的间隔采样以及全部视频帧的重构;
步骤B,使用更新后的图像压缩感知网络和帧合成网络初始化间隔观测完全重构网络对应层的参数;
步骤C,使用对抗损失函数和梯度下降法更新间隔观测完全重构网络的各层参数,最后将均方误差损失最小的网络参数赋值给间隔观测完全重构网络,得到优化的间隔观测完全重构网络。
本发明在训练间隔观测完全重构网络时,利用均方误差损失函数计算原始图像与重构图像间的损失,并利用梯度下降法优化网络的参数,相比于利用光流标签优化光流预测的现有技术,本发明无需耗费大量精力来获取现实场景中的光流标签,降低了网络训练的难度。
实施例
利用本发明所述方法对公共数据集SPMCS和VID 4进行间隔观测完全重构,两个数据集总共包含14个测试视频,将数据集中的每个视频分别输入本发明所述的间隔观测完全重构系统和现有压缩感知重构网络,对各网络的重构结果进行分析,统计视频帧与对应重构视频帧之间的峰值信噪比(PSNR)和结构相似性(SSIM)的平均值,结果如表1所示:
表1 视频与对应重构视频之间的PSNR和SSIM
方法 RRSSBI[1] CSVNet[2] ISTANet[3] DFC[4] 本发明
PSNR/dB 23.25 22.99 23.11 23.63 30.88
SSIM 0.666 0.624 0.634 0.663 0.916
峰值信噪比(Peak Signal to Noise Ratio,PSNR)是目前使用最为广泛的一种全参考的图像客观评价指标,是基于像素误差敏感的图像质量评价指标;结构相似性(Structural Similarity,SSIM)是一种全参考的图像质量评价指标,分别从亮度、对比度、结构三个方面度量图像相似性;这两个指标都是越大越好,其中PSNR的上界为无穷大,SSIM的上界是1,为重构图像与原始图像完全相同时的取值。
本发明通过间隔观测方法利用视频的时间冗余度,将更多的观测资源分配给关键帧,提升了关键帧的重构质量,同时利用显式的运动建模重构中间帧,进而得到完整的重构视频,相比于其他现有方法,本发明获得重构视频峰值信噪比和结构相似性都较高,即其与原始视频的差异性最小,说明本发明具有较好的视频重构效果。
本发明还包含一种电子设备,包括存储器和处理器,所述存储器用于存储视频帧划分、关键帧重构、中间帧合成的各种计算机程序指令,所述处理器用于执行所述计算机程序指令完成上述全部或部分步骤,实现对视频的压缩感知重构;所述电子设备可以与一个或多个外部设备通信,还可与一个或多个使用户与该电子设备交互的设备通信,和/或与使得该电子设备能与一个或多个其他计算设备进行通信的任何设备通信,电子设备还可以通过网络适配器与一个或多个网络(例如局域网、广域网和/或公共网络)通信;本发明还包括一种存储有计算机程序的计算机可读介质,该计算机程序可以被处理器执行实现视频的压缩感知重构,所述计算机可读介质可以包括但不限于磁存储设备、光盘、数字多功能盘、智能卡及闪存设备,此外本发明所述的可读储存介质能代表用于存储信息的一个或多个设备和/或其他机器可读介质,术语“机器可读介质”包括但不限于能存储、包含和/或承载代码和/或指令和/或数据的无线通道和各种其他介质(和/或存储介质)。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (3)

1.基于间隔观测的视频压缩感知系统进行视频压缩感知的方法,其特征在于,包括以下步骤:
步骤1,以T个视频帧为周期将视频划分为i个观测周期,将各观测周期内的第一帧作为关键帧,其余帧作为中间帧;
步骤2,构建图像压缩感知网络,间隔观测视频中的关键帧,并根据观测值进行初始恢复和增强获得关键帧的重构视频帧;
步骤3,构建帧合成网络,将重构视频帧输入帧合成网络,利用相邻关键帧的特征及光流重构中间帧;
步骤4,将关键帧与中间帧拼接得到压缩感知重构的视频;
所述步骤3中重构中间帧的过程如下:
步骤31,利用上一层级预测的光流对后一关键帧的特征进行变形,变形过程如公式(1)所示:
Figure FDA0003673721100000011
公式(1)中flow0→T,l+1表示l+1层光流预测器预测的前一关键帧到后一关键帧的光流,up2表示对光流值和分辨率进行上采样,FT,l表示后一关键帧的l层特征,x+d表示前一关键帧中的空间位置x在后一关键帧中的空间位置,
Figure FDA0003673721100000012
表示变形后的后一关键帧中空间位置x+d的l层特征;
步骤32,使用公式(2)计算前一关键帧与后一关键帧的关联性:
Figure FDA0003673721100000013
公式(2)中C表示特征维度,d表示空间位置x从前一关键帧和后一关键帧的位移量,F0,l(x)表示前一关键帧中空间位置x的l层特征,
Figure FDA0003673721100000014
表示变形后后一关键帧中空间位置x+d的l层特征,corr(x,d,l)表示F0,l(x)和
Figure FDA0003673721100000015
的关联性;
步骤33,对corr(x,d,l)进行映射得到残差光流,使用残差光流计算前一关键帧到后一关键帧的l层预测光流flow0→T,l和后一关键帧到前一关键帧的l层预测光流flowT→0,l
步骤34,使用公式(3)分别估计中间帧到前一关键帧的光流及其到后一关键帧的光流:
Figure FDA0003673721100000021
公式(3)中flowt→0,l、flowt→T,l分别表示中间帧到前一关键帧的光流、中间帧到后一关键帧的光流,a、A分别为中间帧和关键帧对应的时刻;
步骤35,使用公式(4)合成中间帧的特征,再基于此合成中间帧;
Figure FDA0003673721100000022
公式(4)中Ft,l表示中间帧的l层特征,F0,l、FT,l分别表示前一关键帧的l层特征、后一关键帧的l层特征,warp(FT,l,flowt→T,l)表示利用flowt→T,l对后一关键帧的l层特征进行变形得到的特征,warp(F0,l,flowt→0,l)表示利用flowt→0,l对前一关键帧的l层特征进行变形得到的特征。
2.一种电子设备,其特征在于,包括处理器、存储器和通信总线,其中,处理器、存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1所述的方法步骤。
3.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1所述的方法步骤。
CN202110640303.XA 2021-06-09 2021-06-09 基于间隔观测的视频压缩感知系统及方法、设备及存储介质 Active CN113382247B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110640303.XA CN113382247B (zh) 2021-06-09 2021-06-09 基于间隔观测的视频压缩感知系统及方法、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110640303.XA CN113382247B (zh) 2021-06-09 2021-06-09 基于间隔观测的视频压缩感知系统及方法、设备及存储介质

Publications (2)

Publication Number Publication Date
CN113382247A CN113382247A (zh) 2021-09-10
CN113382247B true CN113382247B (zh) 2022-10-18

Family

ID=77573083

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110640303.XA Active CN113382247B (zh) 2021-06-09 2021-06-09 基于间隔观测的视频压缩感知系统及方法、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113382247B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111405283A (zh) * 2020-02-20 2020-07-10 北京大学 基于深度学习的端到端视频压缩方法、系统及存储介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102427527B (zh) * 2011-09-27 2013-11-06 西安电子科技大学 基于分布式视频压缩感知系统非关键帧的重构方法
CN104159112B (zh) * 2014-08-08 2017-11-03 哈尔滨工业大学深圳研究生院 基于双重稀疏模型解码的压缩感知视频传输方法及系统
CN106686385B (zh) * 2016-12-30 2018-09-25 平安科技(深圳)有限公司 视频压缩感知重构方法及装置
CN107360426B (zh) * 2017-07-13 2020-04-10 福州大学 一种基于压缩感知的视频序列重构方法
US10924755B2 (en) * 2017-10-19 2021-02-16 Arizona Board Of Regents On Behalf Of Arizona State University Real time end-to-end learning system for a high frame rate video compressive sensing network
CN108881911B (zh) * 2018-06-26 2020-07-10 电子科技大学 一种用于压缩感知后视频数据流的前景和背景恢复方法
CN109905624B (zh) * 2019-03-01 2020-10-16 北京大学深圳研究生院 一种视频帧插值方法、装置及设备
CN110191299B (zh) * 2019-04-15 2020-08-04 浙江大学 一种基于卷积神经网络的多重帧插值方法
CN112104830B (zh) * 2020-08-13 2022-09-27 北京迈格威科技有限公司 视频插帧方法、模型训练方法及对应装置
CN112580473A (zh) * 2020-12-11 2021-03-30 北京工业大学 一种融合运动特征的视频超分辨率重构方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111405283A (zh) * 2020-02-20 2020-07-10 北京大学 基于深度学习的端到端视频压缩方法、系统及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
A Microwave Photonic Radar Warning Receiver based on Deep Compressed Sensing;Daniel Onori;《 2019 International Topical Meeting on Microwave Photonics (MWP)》;20191010;全文 *

Also Published As

Publication number Publication date
CN113382247A (zh) 2021-09-10

Similar Documents

Publication Publication Date Title
Zamir et al. Restormer: Efficient transformer for high-resolution image restoration
CN110969577B (zh) 一种基于深度双重注意力网络的视频超分辨率重建方法
CN109271933B (zh) 基于视频流进行三维人体姿态估计的方法
US7440619B2 (en) Image matching method and image interpolation method using the same
CN111667442B (zh) 一种基于事件相机的高质量高帧率图像重建方法
CN113994366A (zh) 用于视频超分辨率的多阶段多参考自举
JP2007000205A (ja) 画像処理装置及び画像処理方法並びに画像処理プログラム
CN114339409B (zh) 视频处理方法、装置、计算机设备及存储介质
CN113870335A (zh) 一种基于多尺度特征融合的单目深度估计方法
CN111696038A (zh) 图像超分辨率方法、装置、设备及计算机可读存储介质
CN114283495A (zh) 一种基于二值化神经网络的人体姿态估计方法
CN115936985A (zh) 一种基于高阶退化循环生成对抗网络的图像超分辨率重建方法
Li et al. A simple baseline for video restoration with grouped spatial-temporal shift
CN115496663A (zh) 基于d3d卷积组内融合网络的视频超分辨率重建方法
CN116402679A (zh) 一种轻量级红外超分辨率自适应重建方法
CN112818958B (zh) 动作识别方法、装置及存储介质
CN113313731A (zh) 一种针对单目视频的三维人体姿态估计方法
CN113382247B (zh) 基于间隔观测的视频压缩感知系统及方法、设备及存储介质
CN113096032A (zh) 一种基于图像区域划分的非均匀一致模糊去除方法
CN114612305B (zh) 一种基于立体图建模的事件驱动视频超分辨率方法
CN116205953A (zh) 基于分层全相关代价体聚合的光流估计方法与装置
Choi et al. Group-based bi-directional recurrent wavelet neural network for efficient video super-resolution (VSR)
CN116385281A (zh) 一种基于真实噪声模型与生成对抗网络的遥感图像去噪方法
CN116708807A (zh) 监控视频的压缩重建方法、压缩重建装置
Li et al. H-vfi: Hierarchical frame interpolation for videos with large motions

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant