CN114339219A - 帧间预测方法、装置、编解码方法、编解码器及电子设备 - Google Patents

帧间预测方法、装置、编解码方法、编解码器及电子设备 Download PDF

Info

Publication number
CN114339219A
CN114339219A CN202111666914.8A CN202111666914A CN114339219A CN 114339219 A CN114339219 A CN 114339219A CN 202111666914 A CN202111666914 A CN 202111666914A CN 114339219 A CN114339219 A CN 114339219A
Authority
CN
China
Prior art keywords
motion information
frame image
reference frame
layer
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111666914.8A
Other languages
English (en)
Inventor
陈瑶
方瑞东
江东
粘春湄
施晓迪
杜亚鹏
林聚财
殷俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Dahua Technology Co Ltd
Original Assignee
Zhejiang Dahua Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Dahua Technology Co Ltd filed Critical Zhejiang Dahua Technology Co Ltd
Priority to CN202111666914.8A priority Critical patent/CN114339219A/zh
Publication of CN114339219A publication Critical patent/CN114339219A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了帧间预测方法、装置、编解码方法、编解码器及电子设备,获取当前帧图像和对应的参考帧图像之后,采用两种方式确定当前帧图像的运动信息。在像素域采用光流估计算法确定当前帧图像的第一运动信息;在特征空间域,将当前帧特征图和参考帧特征图输入已训练的运动信息检测模型,基于运动信息检测模型,确定第二运动信息。然后对第一运动信息和第二运动信息进行融合处理,得到目标运动信息。本发明实施例从像素域和特征空间域两个维度出发,得到最终的目标运动信息,使得确定的目标运动信息更准确,进而基于目标运动信息进行运动补偿,使得补偿后的图像更准确。

Description

帧间预测方法、装置、编解码方法、编解码器及电子设备
技术领域
本发明涉及视频编解码技术领域,尤其涉及帧间预测方法、装置、编解码方法、编解码器及电子设备。
背景技术
视频编解码系统主要包括编码、传输和解码三大部分。由于视频图像的数据量比较大,视频编码的主要作用是将视频像素数据(颜色空间红绿蓝RGB,颜色空间亮度信号、色度信号YUV等)压缩成为视频码流,从而降低视频的数据量,实现降低传输过程中的网络带宽和减少存储空间的目的。
视频编解码技术中的帧间预测指的是,一般来说,时间上相邻帧像素点的亮度和色度信号值比较接近,具有强相关性。帧间预测通过运动搜索等方法在参考帧中寻找与当前块最为接近的匹配块,并估计当前块与匹配块间的运动信息如运动矢量MV(motionvector)和参考帧索引。对运动信息进行编码,传输到解码端。在解码端,解码器只要通过相应句法元素解析出当前块的运动信息,就可找到当前块的匹配块。并将匹配块的像素值拷贝到当前块,即为当前块的帧间预测值。
现有技术在估计参考帧与当前帧之间的运动信息时,一般仅是在像素域进行。仅在像素域进行运动信息的估计,会使得估计得到的运动信息的准确性较低,进而使得帧间预测的准确性较低。
发明内容
本发明实施例提供了帧间预测方法、装置、编解码方法、编解码器及电子设备,用以解决现有技术因估计得到的运动信息的准确性较低,进而使得帧间预测的准确性较低的问题。
本发明实施例提供了一种帧间预测方法,所述方法包括:
获取当前帧图像和对应的参考帧图像;
根据所述当前帧图像、所述参考帧图像和光流估计算法,确定第一运动信息;
分别对所述当前帧图像和所述参考帧图像进行特征提取,得到各自对应的当前帧特征图和参考帧特征图;将所述当前帧特征图和参考帧特征图输入已训练的运动信息检测模型,基于所述运动信息检测模型,确定第二运动信息;
对所述第一运动信息和第二运动信息进行融合处理,得到目标运动信息,基于所述目标运动信息进行运动补偿,得到补偿后的图像。
进一步地,获取对应的参考帧图像包括:
在所述当前帧图像的前向参考列表中,选取至少一帧参考帧图像;或在所述当前帧图像的后向参考列表中,选取至少一帧参考帧图像;或在所述当前帧图像的前、后向参考列表中,分别选取至少一帧参考帧图像。
进一步地,所述分别对所述当前帧图像和所述参考帧图像进行特征提取,得到各自对应的当前帧特征图和参考帧特征图包括:
分别将所述当前帧图像和所述参考帧图像输入特征提取网络模型,基于所述特征提取网络模型分别对所述当前帧图像和所述参考帧图像进行特征提取,得到各自对应的当前帧特征图和参考帧特征图;其中,所述特征提取网络模型包括依次连接的第一卷积神经网络结构和至少一个第一残差块。
进一步地,所述将所述当前帧特征图和参考帧特征图输入已训练的运动信息检测模型,基于所述运动信息检测模型,确定第二运动信息包括:
所述已训练的运动信息检测模型包括已训练的第一神经网络模型,所述第一神经网络模型包括第二卷积神经网络结构;
将所述当前帧特征图和参考帧特征图输入已训练的第一神经网络模型,基于所述第一神经网络模型,确定第二运动信息。
进一步地,所述分别对所述当前帧图像和所述参考帧图像进行特征提取,得到各自对应的当前帧特征图和参考帧特征图包括:
分别将所述当前帧图像和所述参考帧图像输入金字塔网络模型,基于所述金字塔网络模型分别对所述当前帧图像和所述参考帧图像进行特征提取,得到每一层金字塔中的当前帧特征图和参考帧特征图;其中,所述金字塔网络模型包括依次连接的至少两个特征提取网络结构。
进一步地,所述将所述当前帧特征图和参考帧特征图输入已训练的运动信息检测模型,基于所述运动信息检测模型,确定第二运动信息包括:
所述已训练的运动信息检测模型包括已训练的第二神经网络模型,所述第二神经网络模型包括依次连接的扭曲层、代价计算层、光流预测层和光流优化层;
基于所述金字塔网络模型中的扭曲层、代价计算层、光流预测层和光流优化层,分别确定金字塔中每一层的当前帧特征图对应的初始运动信息;
低分辨层的初始运动信息通过层层上采样得到第二运动信息;或将每一层的初始运动信息进行融合处理,得到第二运动信息。
进一步地,所述光流预测层包括第二残差块,或深度可分离卷积结构,或空间可分离卷积结构;
所述光流优化层包括空洞卷积结构和滤波层。
进一步地,所述基于所述目标运动信息进行运动补偿,得到补偿后的图像包括:
将所述目标运动信息和所述参考帧特征图输入运动信息补偿网络中的预测帧特征图模块,得到预测帧特征图;将所述预测帧特征图输入运动信息补偿网络中的重建图像模块,得到补偿后的图像。
进一步地,所述预测帧特征图模块包括依次连接的可变形卷积层、串联层和卷积层;
所述将所述目标运动信息和所述参考帧特征图输入运动信息补偿网络中的预测帧特征图模块,得到预测帧特征图包括:
将所述目标运动信息和所述参考帧特征图输入所述可变形卷积层;
将所述可变形卷积层的输出结果和所述参考帧特征图输入所述串联层;
将所述串联层的输出结果输入所述卷积层;
将所述卷积层的输出结果和所述可变形卷积层的输出结果进行融合处理,得到预测帧特征图。
进一步地,所述重建图像模块包括依次连接的第三残差块和反卷积层;
所述将所述预测帧特征图输入运动信息补偿网络中的重建图像模块,得到补偿后的图像包括:
将所述预测帧特征图输入所述第三残差块;
将所述第三残差块的输出结果输入所述反卷积层,得到补偿后的图像。
进一步地,若参考帧特征图为至少两个;所述得到预测帧特征图包括:
将至少两个参考帧特征图进行分组,将每组的参考帧特征图和对应的目标运动信息输入各自对应的可变形卷积层;将各个可变形卷积层的输出结果输入时域注意力模块;
将每组时域注意力模块的输出结果输入所述串联层;
将所述串联层的输出结果输入空域注意力模块,基于所述空域注意力模块得到预测帧特征图。
进一步地,所述时域注意力模块对所述各个可变形卷积层的输出结果的处理过程包括;
分别将所述各个可变形卷积层的输出结果输入时域注意力模块中各自对应的卷积层;
将每个卷积层的输出结果进行点乘和激活函数运算;将激活函数运算结果与任一可变形卷积层的输出结果进行相乘,得到所述时域注意力模块的输出结果。
进一步地,所述空域注意力模块对所述串联层的输出结果的处理过程包括;
将所述串联层的输出结果输入空域注意力模块中的卷积层;
将所述卷积层的输出结果输入多尺度网络结构;所述多尺度网络结构包括不同尺度的第四残差块;
对所述多尺度网络结构的输出结果进行激活函数运算;将所述激活函数运算的结果与所述卷积层的输出结果进行相乘,得到所述预测帧特征图。
进一步地,所述方法还包括:
将所述目标运动信息、参考帧图像的参考方向信息和参考帧图像的索引号发送至解码端,以使所述解码端根据所述目标运动信息、参考帧图像的参考方向信息和参考帧图像的索引号,确定预测帧图像;所述参考帧图像的参考方向信息包括前向参考信息和/或后向参考信息。
进一步地,所述将所述目标运动信息、参考帧图像的参考方向信息和参考帧图像的索引号发送至解码端包括:
若参考帧图像为多个,对各个参考帧图像各自对应的目标运动信息进行融合或预选处理,得到一个或两个融合或预选处理后的目标运动信息;将所述融合或预选处理后的目标运动信息、所述各个参考帧图像的参考方向信息和所述各个参考帧图像的索引号发送至解码端,以使所述解码端根据所述融合或预选处理后的目标运动信息、所述各个参考帧图像的参考方向信息和所述各个参考帧图像的索引号,确定预测帧图像;或
若参考帧图像为多个,将各个参考帧图像对应的目标运动信息、各个参考帧图像的参考方向信息和各个参考帧图像的索引号发送至解码端,以使所述解码端根据各个参考帧图像对应的目标运动信息、各个参考帧图像的参考方向信息和各个参考帧图像的索引号,分别确定候选预测帧图像,将各个候选预测帧图像进行融合处理,得到预测帧图像;或
若参考帧图像为多个,将各个参考帧图像对应的目标运动信息、各个参考帧图像的参考方向信息和各个参考帧图像的索引号发送至解码端,以使所述解码端根据各个参考帧图像及各自对应的目标运动信息在运动补偿阶段进行对齐、融合处理,确定预测帧图像。
另一方面,本发明实施例提供了一种帧间预测装置,所述装置包括:
第一获取单元,用于获取当前帧图像和对应的参考帧图像;
第一确定单元,用于根据所述当前帧图像、所述参考帧图像和光流估计算法,确定第一运动信息;
第二确定单元,用于分别对所述当前帧图像和所述参考帧图像进行特征提取,得到各自对应的当前帧特征图和参考帧特征图;将所述当前帧特征图和参考帧特征图输入已训练的运动信息检测模型,基于所述运动信息检测模型,确定第二运动信息;
预测单元,用于对所述第一运动信息和第二运动信息进行融合处理,得到目标运动信息,基于所述目标运动信息进行运动补偿,得到补偿后的图像。
所述第一获取单元,具体用于在所述当前帧图像的前向参考列表中,选取至少一帧参考帧图像;或在所述当前帧图像的后向参考列表中,选取至少一帧参考帧图像;或在所述当前帧图像的前、后向参考列表中,分别选取至少一帧参考帧图像。
所述第二确定单元,具体用于分别将所述当前帧图像和所述参考帧图像输入特征提取网络模型,基于所述特征提取网络模型分别对所述当前帧图像和所述参考帧图像进行特征提取,得到各自对应的当前帧特征图和参考帧特征图;其中,所述特征提取网络模型包括依次连接的第一卷积神经网络结构和至少一个第一残差块。
所述第二确定单元,具体用于所述已训练的运动信息检测模型包括已训练的第一神经网络模型,所述第一神经网络模型包括第二卷积神经网络结构;将所述当前帧特征图和参考帧特征图输入已训练的第一神经网络模型,基于所述第一神经网络模型,确定第二运动信息。
所述第二确定单元,具体用于分别将所述当前帧图像和所述参考帧图像输入金字塔网络模型,基于所述金字塔网络模型分别对所述当前帧图像和所述参考帧图像进行特征提取,得到每一层金字塔中的当前帧特征图和参考帧特征图;其中,所述金字塔网络模型包括依次连接的至少两个特征提取网络结构。
所述第二确定单元,具体用于所述已训练的运动信息检测模型包括已训练的第二神经网络模型,所述第二神经网络模型包括依次连接的扭曲层、代价计算层、光流预测层和光流优化层;基于所述金字塔网络模型中的扭曲层、代价计算层、光流预测层和光流优化层,分别确定金字塔中每一层的当前帧特征图对应的初始运动信息;低分辨层的初始运动信息通过层层上采样得到第二运动信息;或将每一层的初始运动信息进行融合处理,得到第二运动信息。
所述光流预测层包括第二残差块,或深度可分离卷积结构,或空间可分离卷积结构;所述光流优化层包括空洞卷积结构和滤波层。
所述预测单元,具体用于将所述目标运动信息和所述参考帧特征图输入运动信息补偿网络中的预测帧特征图模块,得到预测帧特征图;将所述预测帧特征图输入运动信息补偿网络中的重建图像模块,得到补偿后的图像。
所述预测帧特征图模块包括依次连接的可变形卷积层、串联层和卷积层;
所述预测单元,具体用于将所述目标运动信息和所述参考帧特征图输入所述可变形卷积层;将所述可变形卷积层的输出结果和所述参考帧特征图输入所述串联层;将所述串联层的输出结果输入所述卷积层;将所述卷积层的输出结果和所述可变形卷积层的输出结果进行融合处理,得到预测帧特征图。
所述重建图像模块包括依次连接的第三残差块和反卷积层;
所述预测单元,具体用于将所述预测帧特征图输入所述第三残差块;将所述第三残差块的输出结果输入所述反卷积层,得到补偿后的图像。
若参考帧特征图为至少两个,所述预测单元,具体用于将至少两个参考帧特征图进行分组,将每组的参考帧特征图和对应的目标运动信息输入各自对应的可变形卷积层;将各个可变形卷积层的输出结果输入时域注意力模块;将每组时域注意力模块的输出结果输入所述串联层;将所述串联层的输出结果输入空域注意力模块,基于所述空域注意力模块得到预测帧特征图。
所述装置还包括:
发送单元,用于将所述目标运动信息、参考帧图像的参考方向信息和参考帧图像的索引号发送至解码端,以使所述解码端根据所述目标运动信息、参考帧图像的参考方向信息和参考帧图像的索引号,确定预测帧图像;所述参考帧图像的参考方向信息包括前向参考信息和/或后向参考信息。
所述发送单元,具体用于若参考帧图像为多个,对各个参考帧图像各自对应的目标运动信息进行融合或预选处理,得到一个或两个融合或预选处理后的目标运动信息;将所述融合或预选处理后的目标运动信息、所述各个参考帧图像的参考方向信息和所述各个参考帧图像的索引号发送至解码端,以使所述解码端根据所述融合或预选处理后的目标运动信息、所述各个参考帧图像的参考方向信息和所述各个参考帧图像的索引号,确定预测帧图像;或
若参考帧图像为多个,将各个参考帧图像对应的目标运动信息、各个参考帧图像的参考方向信息和各个参考帧图像的索引号发送至解码端,以使所述解码端根据各个参考帧图像对应的目标运动信息、各个参考帧图像的参考方向信息和各个参考帧图像的索引号,分别确定候选预测帧图像,将各个候选预测帧图像进行融合处理,得到预测帧图像;或
若参考帧图像为多个,将各个参考帧图像对应的目标运动信息、各个参考帧图像的参考方向信息和各个参考帧图像的索引号发送至解码端,以使所述解码端根据各个参考帧图像及各自对应的目标运动信息在运动补偿阶段进行对齐、融合处理,确定预测帧图像。
再一方面,本发明实施例提供了一种编码方法,所述方法包括:
获取当前帧图像;
对所述当前帧图像进行编码,获得所述当前帧图像对应的编码图像;其中,在所述编码过程中利用上述任一项所述的帧间预测方法,对所述当前帧图像进行帧间预测。
再一方面,本发明实施例提供了一种编码器,所述编码器包括:
第二获取单元,用于获取当前帧图像;
编码单元,用于对所述当前帧图像进行编码,获得所述当前帧图像对应的编码图像。
再一方面,本发明实施例提供了一种解码方法,所述方法包括:
接收编码器发送的目标运动信息、参考帧图像的参考方向信息和参考帧图像的索引号,其中,所述目标运动信息是编码器利用上述任一项所述的帧间预测方法得到的;
根据所述目标运动信息、参考帧图像的参考方向信息和参考帧图像的索引号,确定预测帧图像。
再一方面,本发明实施例提供了一种解码器,所述解码器包括:
接收单元,用于接收编码器发送的目标运动信息、参考帧图像的参考方向信息和参考帧图像的索引号;
解码单元,用于根据所述目标运动信息、参考帧图像的参考方向信息和参考帧图像的索引号,确定预测帧图像。
再一方面,本发明实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述任一项所述的方法步骤。
再一方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法步骤。
本发明实施例提供了帧间预测方法、装置、编解码方法、编解码器及电子设备,所述方法包括:获取当前帧图像和对应的参考帧图像;根据所述当前帧图像、所述参考帧图像和光流估计算法,确定第一运动信息;分别对所述当前帧图像和所述参考帧图像进行特征提取,得到各自对应的当前帧特征图和参考帧特征图;将所述当前帧特征图和参考帧特征图输入已训练的运动信息检测模型,基于所述运动信息检测模型,确定第二运动信息;对所述第一运动信息和第二运动信息进行融合处理,得到目标运动信息,基于所述目标运动信息进行运动补偿,得到补偿后的图像。
上述的技术方案具有如下优点或有益效果:
由于在本发明实施例中,获取当前帧图像和对应的参考帧图像之后,采用两种方式分别确定当前帧图像和对应的参考帧图像的运动信息。即第一种方式在像素域采用光流估计算法确定当前帧图像和对应的参考帧图像的第一运动信息;第二种方式在特征空间域,分别对当前帧图像和所述参考帧图像进行特征提取,得到各自对应的当前帧特征图和参考帧特征图;将当前帧特征图和参考帧特征图输入已训练的运动信息检测模型,基于运动信息检测模型,确定第二运动信息。然后对第一运动信息和第二运动信息进行融合处理,得到目标运动信息,最后根据目标运动信息进行运动补偿,得到补偿后的图像。本发明实施例从像素域和特征空间域两个维度出发,得到最终的目标运动信息,使得确定的目标运动信息更准确,进而基于目标运动信息进行运动补偿,使得补偿后的图像更准确。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例1提供的帧间预测过程示意图;
图2为本发明实施例1提供的获取当前帧图像对应的参考帧图像示意图;
图3为本发明实施例2提供的特征提取网络模型结构示意图;
图4为本发明实施例2提供的第一神经网络模型结构示意图;
图5为本发明实施例3提供的金字塔网络模型结构示意图;
图6为本发明实施例3提供的另一金字塔网络模型结构示意图;
图7为本发明实施例4提供的可变形卷积的基本原理图;
图8为本发明实施例4提供的预测帧特征图模块结构示意图;
图9为本发明实施例4提供的重建图像模块结构示意图;
图10为本发明实施例5提供的得到预测帧特征图的框架图;
图11为本发明实施例5提供的时域注意力模块对所述各个可变形卷积层的输出结果的处理过程示意图;
图12为本发明实施例5提供的空域注意力模块对所述串联层的输出结果的处理过程示意图;
图13为本发明实施例5提供的多尺度网络结构示意图;
图14为本发明实施例7提供的帧间预测装置结构示意图;
图15为本发明实施例8提供的编码过程示意图;
图16为本发明实施例8提供的编码器的结构示意图;
图17为本发明实施例9提供的解码过程示意图;
图18为本发明实施例9提供的解码器的结构示意图;
图19为本发明实施例10提供的电子设备结构示意图。
具体实施方式
下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
实施例1:
图1为本发明实施例提供的帧间预测过程示意图,该过程包括以下步骤:
S101:获取当前帧图像和对应的参考帧图像。
S102:根据所述当前帧图像、所述参考帧图像和光流估计算法,确定第一运动信息。
S103:分别对所述当前帧图像和所述参考帧图像进行特征提取,得到各自对应的当前帧特征图和参考帧特征图;将所述当前帧特征图和参考帧特征图输入已训练的运动信息检测模型,基于所述运动信息检测模型,确定第二运动信息。
S104:对所述第一运动信息和第二运动信息进行融合处理,得到目标运动信息,基于所述目标运动信息进行运动补偿,得到补偿后的图像。
本发明实施例提供的帧间预测方法应用于电子设备,该电子设备为编码端设备。编码端设备首先获取当前帧图像,以及当前帧图像对应的参考帧图像。现有技术中在获取当前帧图像对应的参考帧图像时,一般选取某一帧历史重建帧图像作为参考帧图像。仅根据当前帧图像对应的一帧参考帧图像确定运动信息,这样得到的运动信息的准确性较差。本发明实施例中,为了解决上述问题,获取对应的参考帧图像包括:在所述当前帧图像的前向参考列表中,选取至少一帧参考帧图像;或在所述当前帧图像的后向参考列表中,选取至少一帧参考帧图像;或在所述当前帧图像的前、后向参考列表中,分别选取至少一帧参考帧图像。
如图2所示,本发明实施例获取当前帧图像对应的参考帧图像时,可在前向参考列表的N帧图像中选取至少一帧参考帧图像,或者可在后向参考列表的N帧图像中选取至少一帧参考帧图像,再或者分别在前向参考列表的L帧图像中选取至少一帧参考帧图像,以及在后向参考列表的M帧图像中选取至少一帧参考帧图像。本发明实施例中的参考帧图像的类型:除了历史的重构帧,参考帧图像也可以为其他类型,比如由多个重构帧融合成的一个新的参考帧图像,通过背景建模得到的背景帧,或者指定某一帧(例如关键帧)为长期参考帧;参考帧图像数量及结构:可由现有的单帧参考变为多帧参考,也可由单向参考变为双向参考。参考帧列表可由N(N>=1)个参考帧构成,参考帧包含历史重构帧、融合参考帧、背景帧、指定帧等中的一种或多种。参考帧图像的结构可为图2示例中的某一种。
现有技术中运动信息估计一般在像素域采用光流估计算法进行,这种方式可能存在运动信息估计不准确的问题,从而进一步影响后续帧间预测的准确性。本发明实施例从两个角度出发,提高运动信息估计的准确性。
角度一、根据当前帧图像、参考帧图像和光流估计算法,确定第一运动信息。采用更有效的光流估计算法在像素域进行运动信息估计,如Spynet算法,尺度空间光流估计算法,Flownet2算法等。
角度二、分别对当前帧图像和参考帧图像进行特征提取,得到各自对应的当前帧特征图和参考帧特征图;将当前帧特征图和参考帧特征图输入已训练的运动信息检测模型,基于运动信息检测模型,确定第二运动信息。在特征空间进行运动信息估计,可采用卷积神经网络模型或者金字塔网络模型确定第二运动信息。
得到第一运动信息和第二运动信息之后,对第一运动信息和第二运动信息进行融合处理得到目标运动信息,基于目标运动信息进行帧间预测。在对第一运动信息和第二运动信息进行融合处理时,可以先对第一运动信息和第二运动信息进行通道维度的拼接,然后通过卷积处理得到目标运动信息。或者根据需要分别为第一运动信息和第二运动信息分配不同的权重,通过对第一运动信息和第二运动信息进行加权融合得到目标运动信息。
由于在本发明实施例中,获取当前帧图像和对应的参考帧图像之后,采用两种方式分别确定当前帧图像和对应的参考帧图像的运动信息。即第一种方式在像素域采用光流估计算法确定当前帧图像和对应的参考帧图像的第一运动信息;第二种方式在特征空间域,分别对当前帧图像和所述参考帧图像进行特征提取,得到各自对应的当前帧特征图和参考帧特征图;将当前帧特征图和参考帧特征图输入已训练的运动信息检测模型,基于运动信息检测模型,确定第二运动信息。然后对第一运动信息和第二运动信息进行融合处理,得到目标运动信息,最后根据目标运动信息进行帧间预测。本发明实施例从像素域和特征空间域两个维度出发,得到最终的目标运动信息,使得确定的目标运动信息更准确,进而基于目标运动信息进行运动补偿,使得补偿后的图像更准确。
实施例2:
在上述实施例的基础上,在本发明实施例中,所述分别对所述当前帧图像和所述参考帧图像进行特征提取,得到各自对应的当前帧特征图和参考帧特征图包括:
分别将所述当前帧图像和所述参考帧图像输入特征提取网络模型,基于所述特征提取网络模型分别对所述当前帧图像和所述参考帧图像进行特征提取,得到各自对应的当前帧特征图和参考帧特征图;其中,所述特征提取网络模型包括依次连接的第一卷积神经网络结构和至少一个第一残差块。
电子设备中保存有已训练的特征提取网络模型,如图3所示,特征提取网络模型包括依次连接的第一卷积神经网络结构和至少一个第一残差块。分别将当前帧图像和参考帧图像输入特征提取网络模型,基于特征提取网络模型中的第一卷积神经网络结构和至少一个第一残差块分别对当前帧图像和参考帧图像进行特征提取,得到各自对应的当前帧特征图和参考帧特征图。
如图3所示,输入当前帧图像或者参考帧图像,经过一个第一卷积神经网络结构和若干第一残差块得到最终的当前帧特征图或参考帧特征图,其中第一卷积神经网络结构由若干卷积层和激活层构成,卷积层提取特征并下采样,激活层可采用GDN、Relu等激活函数。在卷积层提取特征之后,再经过若干残差块进一步提取特征,残差块不改变特征图的大小。
本发明实施例中,所述将所述当前帧特征图和参考帧特征图输入已训练的运动信息检测模型,基于所述运动信息检测模型,确定第二运动信息包括:
所述已训练的运动信息检测模型包括已训练的第一神经网络模型,所述第一神经网络模型包括第二卷积神经网络结构;
将所述当前帧特征图和参考帧特征图输入已训练的第一神经网络模型,基于所述第一神经网络模型,确定第二运动信息。
电子设备中保存有已训练的运动信息检测模型,本发明实施例中,已训练的运动信息检测模型包括已训练的第一神经网络模型,如图4所示,第一神经网络模型包括第二卷积神经网络结构。将当前帧特征图和参考帧特征图输入已训练的第一神经网络模型,基于第一神经网络模型的第二卷积神经网络结构,确定第二运动信息。如图4所示,将当前帧特征图和参考帧特征图输入已训练的第一神经网络模型,首先经过串联层对当前帧特征图和参考帧特征图进行通道维度的拼接,然后将拼接后的特征图输入第二卷积神经网络结构,确定第二运动信息。
特征提取之后就将原始图像转换到了特征空间,此时将当前帧特征图和参考帧特征图的信息进行串联拼接,再通过一个第二卷积神经网络结构学习两帧之间的运动偏移情况,也即得到运动信息,如图4所示。同样地,此处的第二卷积神经网络结构也由若干卷积层和激活层构成,卷积层仍然兼顾特征提取及下采样两个功能。
实施例3:
在上述实施例的基础上,在本发明实施例中,所述分别对所述当前帧图像和所述参考帧图像进行特征提取,得到各自对应的当前帧特征图和参考帧特征图包括:
分别将所述当前帧图像和所述参考帧图像输入金字塔网络模型,基于所述金字塔网络模型分别对所述当前帧图像和所述参考帧图像进行特征提取,得到每一层金字塔中的当前帧特征图和参考帧特征图;其中,所述金字塔网络模型包括依次连接的至少两个特征提取网络结构。
本发明实施例中,基于金字塔网络模型分别对当前帧图像和参考帧图像进行特征提取,得到每一层金字塔中的当前帧特征图和参考帧特征图。如图5所示,基于金字塔网络模型分别得到第1层特征、第2层特征、第L层特征、第L+1层特征,每层特征分别包括当前帧特征图和参考帧特征图。其中,第1层特征的尺度最大,第L+1层特征的尺度最小。
本发明实施例中,所述将所述当前帧特征图和参考帧特征图输入已训练的运动信息检测模型,基于所述运动信息检测模型,确定第二运动信息包括:
所述已训练的运动信息检测模型包括已训练的第二神经网络模型,所述第二神经网络模型包括依次连接的扭曲层、代价计算层、光流预测层和光流优化层;
基于所述金字塔网络模型中的扭曲层、代价计算层、光流预测层和光流优化层,分别确定金字塔中每一层的当前帧特征图对应的初始运动信息;
低分辨层的初始运动信息通过层层上采样得到第二运动信息;或将每一层的初始运动信息进行融合处理,得到第二运动信息。
首先,确定L+1层的当前帧特征图和参考帧特征图对应的初始运动信息,具体的,将L+1层的参考帧特征图输入扭曲层;将扭曲层的输出结果与L+1层的当前帧特征图输入代价计算层;将代价计算层的输出结果以及L+1层的当前帧特征图输入光流预测层;将光流预测层的输出结果输入光流优化层,得到第二运动信息。L+1层的当前帧特征图和参考帧特征图对应的初始运动信息。
进而根据L+1层的初始运动信息得到L层的当前帧特征图和参考帧特征图对应的初始运动信息,具体的,将L+1层的初始运动信息进行上采样,上采样后的初始运动信息的尺度与L层的当前帧特征图和参考帧特征图的尺度相同。并将上采样后的初始运动信息及与L层的参考帧特征图输入扭曲层;将扭曲层的输出结果与L层的当前帧特征图输入代价计算层。将代价计算层的输出结果、上采样后的L+1层的初始运动信息以及与L层的当前帧特征图输入光流预测层;将光流预测层的输出结果输入光流优化层,得到L层的当前帧特征图和参考帧特征图对应的初始运动信息。
以此类推,可以基于金字塔网络模型中的扭曲层、代价计算层、光流预测层和光流优化层,分别确定金字塔中每一层的当前帧特征图和参考帧特征图对应的初始运动信息。然后将每一层的初始运动信息进行融合处理,得到第二运动信息。将每一层的初始运动信息进行融合处理的过程可以是,将每一层的初始运动信息进行通道维度拼接,然后对于通道维度拼接后的初始运动信息进行卷积处理,得到融合处理结果。或者是低分辨层的初始运动信息通过层层上采样最终得到的初始运动信息作为第二运动信息。
图6为本发明实施例提供的金字塔网络模型结构示意图,并且图6中示意出了确定L层的当前帧特征图和参考帧特征图对应的初始运动信息的过程。
基本的金字塔网络架构可以是PWC-Net网络架构,该网络包含以下几个模块:
特征输入层:对输入图像进行下采样和卷积形成例如的六层金字塔结构;
图像扭曲层:将金字塔L+1层预测的初始运动信息进行上采样后与L层的参考帧特征图进行一次光流扭曲,使其与当前帧特征图更接近;
代价计算层:将处理后的两个特征图做关联像素匹配;
光流预测层:采用卷积神经网络进行光流估计;
光流优化层:采用空洞卷积改善大位移光流的估计精度;
本发明实施例中在PWC-Net的基础上进行了如下改进:
由于在特征空间进行金字塔光流估计,所以金字塔的层数N相较原网络可以更少,例如N<6,以此构建更轻量化的金字塔网络。
光流预测层相比采用普通的卷积层,考虑采用残差块结构,从而防止梯度消失、或者考虑采用深度可分离卷积结构、空间可分离卷积结构等,用来大幅度减少模型参数量,进一步轻量化网络结构。
在光流优化层的空洞卷积结构之后添加滤波层,滤波层可以是双边滤波层或高斯滤波层,去除图像中的高频噪声,同时保留图像的边界信息。即光流预测层包括第二残差块,或深度可分离卷积结构,或空间可分离卷积结构;光流优化层包括空洞卷积结构和滤波层。
上述各网络仅作为几种可行示例的展示,在具体应用中,以上网络还可以以其他网络模型的形式存在。
实施例4:
在上述各实施例的基础上,在本发明实施例中,所述基于所述目标运动信息进行运动补偿,得到补偿后的图像包括:
将所述目标运动信息和所述参考帧特征图输入运动信息补偿网络中的预测帧特征图模块,得到预测帧特征图;将所述预测帧特征图输入运动信息补偿网络中的重建图像模块,得到补偿后的图像。
本发明实施例中,基于目标运动信息进行帧间预测的具体过程为,将目标运动信息和参考帧特征图输入运动信息补偿网络中的预测帧特征图模块,基于预测帧特征图模块得到预测帧特征图,然后将预测帧特征图输入运动信息补偿网络中的重建图像模块,基于重建图像模块得到补偿后的图像。
现有技术中运动补偿一般采用卷积神经网络来实现,该网络的输入为参考帧特征图和运动估计得到的运动信息,这种方式容易造成预测结果的不准确性,且在普通的CNN中,每一层采用的都是固定、规则的卷积核,即感受野的范围是固定的,这样容易限制网络对几何变换的建模能力。
基于上述原因,本发明实施例在运动补偿过程中引入可变形卷积来提升运动补偿的准确性。图7为本发明实施例提供的可变形卷积的基本原理图,也即为感受野中每个像素的位置引入可学习的偏移量,该偏移量使得感受野不再是死板的方形,而是与物体的实际形状贴近。
因此,本发明实施例中,如图8所示,所述预测帧特征图模块包括依次连接的可变形卷积层、串联层和卷积层。卷积层的数量可以是多个,图8中示出了包括两个卷积层。
将目标运动信息和参考帧特征图输入可变形卷积层;将可变形卷积层的输出结果和参考帧特征图输入串联层;串联层用于对可变形卷积层的输出结果和参考帧特征图进行通道维度的拼接,然后将串联层的输出结果输入第一个卷积层;将第一个卷积层的输出结果再输入第二个卷积层,将第二个卷积层的输出结果和可变形卷积层的输出结果进行融合处理,得到预测帧特征图。将第二个卷积层的输出结果和可变形卷积层的输出结果进行融合处理,可以是将第二个卷积层的输出结果和可变形卷积层的输出结果,对应位置的特征值相加,得到融合处理结果,或者为第二个卷积层的输出结果和可变形卷积层的输出结果分配不同的权重,将第二个卷积层的输出结果和可变形卷积层的输出结果,对应位置的特征值加权相加,得到融合处理结果。
如图8所示,将经过可变形卷积之后的特征图和参考帧特征图进行串联作为后续卷积层的输入,并借鉴残差网络的结构进行运动补偿。此处可变形卷积后连接的普通CNN网络的形式可以有多种,例如卷积层之间可加入激活函数,示例网络结构之后再连接残差块等等。
另外由于运动补偿过程也是在特征空间进行的,所以运动补偿结束之后需要将预测帧特征图反卷积回像素空间。如图9所示,所述重建图像模块包括依次连接的第三残差块和反卷积层;将预测帧特征图输入第三残差块;将第三残差块的输出结果输入反卷积层,得到补偿后的图像。第三残差块的数量可以是多个,图9中示意出了包括2个第三残差块,图9仅为示意,可以根据需要设置第三残差块的数量。
实施例5:
在上述各实施例的基础上,在本发明实施例中,若参考帧特征图为至少两个,所述得到预测帧特征图包括:
将至少两个参考帧特征图进行分组,将每组的参考帧特征图和对应的目标运动信息输入各自对应的可变形卷积层;将各个可变形卷积层的输出结果输入时域注意力模块;
将每组时域注意力模块的输出结果输入所述串联层;
将所述串联层的输出结果输入空域注意力模块,基于所述空域注意力模块得到预测帧特征图。
图10为本发明实施例提供的得到预测帧特征图的框架图,如图10所示,若参考帧特征图包括参考帧特征图1、参考帧特征图2、参考帧特征图n-1、参考帧特征图n,每一个参考帧特征图对应有目标运动信息,如图10所示,参考帧特征图1对应有目标运动信息1、参考帧特征图2对应有目标运动信息2、参考帧特征图n-1对应有目标运动信息n-1、参考帧特征图n对应有目标运动信息n。
将参考帧特征图1和参考帧特征图2作为一组,将参考帧特征图n-1和参考帧特征图n作为一组。将参考帧特征图1和目标运动信息1输入可变形卷积层,将参考帧特征图2和目标运动信息2输入另一可变形卷积层,然后将两个可变形卷积层的输出结果输入时域注意力模块。将参考帧特征图n-1和目标运动信息n-1输入可变形卷积层,将参考帧特征图n和目标运动信息n输入另一可变形卷积层,然后将两个可变形卷积层的输出结果输入另一时域注意力模块。将两个时域注意力模块的输出结果输入串联层,对两个时域注意力模块的输出结果进行通道维度的拼接,再将串联层的输出结果输入空域注意力模块,基于空域注意力模块得到预测帧特征图。
各参考帧特征图及对应的目标运动信息输入可变形卷积层,得到对齐的特征图,特征图两两组合输入时域注意力模块进行特征提取,然后将提取的各组特征串联送入空域注意力模块进行特征融合,最终得到预测帧特征图。
图11为本发明实施例提供的时域注意力模块对所述各个可变形卷积层的输出结果的处理过程示意图,所述时域注意力模块对所述各个可变形卷积层的输出结果的处理过程包括;分别将各个可变形卷积层的输出结果输入时域注意力模块中各自对应的卷积层;将每个卷积层的输出结果进行点乘和激活函数运算;将激活函数运算结果与任一可变形卷积层的输出结果进行相乘,得到时域注意力模块的输出结果。
图12为本发明实施例提供的空域注意力模块对所述串联层的输出结果的处理过程示意图,所述空域注意力模块对所述串联层的输出结果的处理过程包括;将所述串联层的输出结果输入空域注意力模块中的卷积层;将所述卷积层的输出结果输入多尺度网络结构;如图13所示,所述多尺度网络结构包括不同尺度的第四残差块,图13中示出了5个第四残差块;对所述多尺度网络结构的输出结果进行激活函数运算;将所述激活函数运算的结果与所述卷积层的输出结果进行相乘,得到所述预测帧特征图。
需要说明的是,上述各网络仅作为几种可行示例的展示,在具体应用中,以上网络还可以以其他网络模型的形式存在。
实施例6:
在上述各实施例的基础上,在本发明实施例中,所述方法还包括:
将所述目标运动信息、参考帧图像的参考方向信息和参考帧图像的索引号发送至解码端,以使所述解码端根据所述目标运动信息、参考帧图像的参考方向信息和参考帧图像的索引号,确定预测帧图像;所述参考帧图像的参考方向信息包括前向参考信息和/或后向参考信息。
当参考帧图像仅为一帧时,将目标运动信息、参考帧图像的参考方向信息和参考帧图像的索引号发送至解码端,以使所述解码端根据所述目标运动信息、参考帧图像的参考方向信息和参考帧图像的索引号,确定预测帧图像。
当参考帧图像仅为多帧时,本发明实施例提供了以下方法:
方法一、对各个参考帧图像各自对应的目标运动信息进行融合或预选处理,得到一个或两个融合或预选处理后的目标运动信息;将所述融合或预选处理后的目标运动信息、所述各个参考帧图像的参考方向信息和所述各个参考帧图像的索引号发送至解码端,以使所述解码端根据所述融合或预选处理后的目标运动信息、所述各个参考帧图像的参考方向信息和所述各个参考帧图像的索引号,确定预测帧图像。
方法二、将各个参考帧图像对应的目标运动信息、各个参考帧图像的参考方向信息和各个参考帧图像的索引号发送至解码端,以使所述解码端根据各个参考帧图像对应的目标运动信息、各个参考帧图像的参考方向信息和各个参考帧图像的索引号,分别确定候选预测帧图像,将各个候选预测帧图像进行融合处理,得到预测帧图像。
方法三、将各个参考帧图像对应的目标运动信息、各个参考帧图像的参考方向信息和各个参考帧图像的索引号发送至解码端,以使所述解码端根据各个参考帧图像及各自对应的目标运动信息在运动补偿阶段进行对齐、融合处理,确定预测帧图像。
多帧参考的情况下,运动信息需要传输大小、方向及参考帧索引这三个信息,具体分以下几种情况:
(1)将多个参考帧先做融合或预选处理,预选处理可根据参考帧距离当前帧的距离、参考帧的编码质量等进行筛选,最终选择出1帧或2帧参考帧,用于单向或双向运动估计,需要传输参考帧的索引、运动矢量及参考方向。
(2)在编码端对多个运动矢量及对应的参考帧各自进行融合处理,得到一个融合后的运动矢量和一个融合后的参考帧,需要传输参考帧的索引及融合后的运动矢量。
(3)多个帧通过运动估计产生多个运动信息,对上述多个运动信息有如下处理方式:
(i)传输多个运动信息到解码端,利用各运动信息得到多个预测帧,并对各预测结果采取加权平均的方式得到当前帧的预测帧,需要传输各参考帧的索引、运动矢量及参考方向。
(ii)传输多个运动信息到解码端,需要传输各参考帧的索引、运动矢量及参考方向,在运动补偿阶段进行对齐、融合等操作,最终得到预测帧。
实施例7:
图14为本发明实施例提供的帧间预测装置结构示意图,该装置包括:
第一获取单元141,用于获取当前帧图像和对应的参考帧图像;
第一确定单元142,用于根据所述当前帧图像、所述参考帧图像和光流估计算法,确定第一运动信息;
第二确定单元143,用于分别对所述当前帧图像和所述参考帧图像进行特征提取,得到各自对应的当前帧特征图和参考帧特征图;将所述当前帧特征图和参考帧特征图输入已训练的运动信息检测模型,基于所述运动信息检测模型,确定第二运动信息;
预测单元144,用于对所述第一运动信息和第二运动信息进行融合处理,得到目标运动信息,基于所述目标运动信息进行运动补偿,得到补偿后的图像。
所述第一获取单元141,具体用于在所述当前帧图像的前向参考列表中,选取至少一帧参考帧图像;或在所述当前帧图像的后向参考列表中,选取至少一帧参考帧图像;或在所述当前帧图像的前、后向参考列表中,分别选取至少一帧参考帧图像。
所述第二确定单元143,具体用于分别将所述当前帧图像和所述参考帧图像输入特征提取网络模型,基于所述特征提取网络模型分别对所述当前帧图像和所述参考帧图像进行特征提取,得到各自对应的当前帧特征图和参考帧特征图;其中,所述特征提取网络模型包括依次连接的第一卷积神经网络结构和至少一个第一残差块。
所述第二确定单元143,具体用于所述已训练的运动信息检测模型包括已训练的第一神经网络模型,所述第一神经网络模型包括第二卷积神经网络结构;将所述当前帧特征图和参考帧特征图输入已训练的第一神经网络模型,基于所述第一神经网络模型,确定第二运动信息。
所述第二确定单元143,具体用于分别将所述当前帧图像和所述参考帧图像输入金字塔网络模型,基于所述金字塔网络模型分别对所述当前帧图像和所述参考帧图像进行特征提取,得到每一层金字塔中的当前帧特征图和参考帧特征图;其中,所述金字塔网络模型包括依次连接的至少两个特征提取网络结构。
所述第二确定单元143,具体用于所述已训练的运动信息检测模型包括已训练的第二神经网络模型,所述第二神经网络模型包括依次连接的扭曲层、代价计算层、光流预测层和光流优化层;基于所述金字塔网络模型中的扭曲层、代价计算层、光流预测层和光流优化层,分别确定金字塔中每一层的当前帧特征图对应的初始运动信息;低分辨层的初始运动信息通过层层上采样得到第二运动信息;或将每一层的初始运动信息进行融合处理,得到第二运动信息。
所述光流预测层包括第二残差块,或深度可分离卷积结构,或空间可分离卷积结构;所述光流优化层包括空洞卷积结构和滤波层。
所述预测单元144,具体用于将所述目标运动信息和所述参考帧特征图输入运动信息补偿网络中的预测帧特征图模块,得到预测帧特征图;将所述预测帧特征图输入运动信息补偿网络中的重建图像模块,得到补偿后的图像。
所述预测帧特征图模块包括依次连接的可变形卷积层、串联层和卷积层;
所述预测单元144,具体用于将所述目标运动信息和所述参考帧特征图输入所述可变形卷积层;将所述可变形卷积层的输出结果和所述参考帧特征图输入所述串联层;将所述串联层的输出结果输入所述卷积层;将所述卷积层的输出结果和所述可变形卷积层的输出结果进行融合处理,得到预测帧特征图。
所述重建图像模块包括依次连接的第三残差块和反卷积层;
所述预测单元144,具体用于将所述预测帧特征图输入所述第三残差块;将所述第三残差块的输出结果输入所述反卷积层,得到补偿后的图像。
若参考帧特征图为至少两个,所述预测单元,具体用于将至少两个参考帧特征图进行分组,将每组的参考帧特征图和对应的目标运动信息输入各自对应的可变形卷积层;将各个可变形卷积层的输出结果输入时域注意力模块;将每组时域注意力模块的输出结果输入所述串联层;将所述串联层的输出结果输入空域注意力模块,基于所述空域注意力模块得到预测帧特征图。
所述装置还包括:
发送单元145,用于将所述目标运动信息、参考帧图像的参考方向信息和参考帧图像的索引号发送至解码端,以使所述解码端根据所述目标运动信息、参考帧图像的参考方向信息和参考帧图像的索引号,确定预测帧图像;所述参考帧图像的参考方向信息包括前向参考信息和/或后向参考信息。
所述发送单元145,具体用于若参考帧图像为多个,对各个参考帧图像各自对应的目标运动信息进行融合或预选处理,得到一个或两个融合或预选处理后的目标运动信息;将所述融合或预选处理后的目标运动信息、所述各个参考帧图像的参考方向信息和所述各个参考帧图像的索引号发送至解码端,以使所述解码端根据所述融合或预选处理后的目标运动信息、所述各个参考帧图像的参考方向信息和所述各个参考帧图像的索引号,确定预测帧图像;或
若参考帧图像为多个,将各个参考帧图像对应的目标运动信息、各个参考帧图像的参考方向信息和各个参考帧图像的索引号发送至解码端,以使所述解码端根据各个参考帧图像对应的目标运动信息、各个参考帧图像的参考方向信息和各个参考帧图像的索引号,分别确定候选预测帧图像,将各个候选预测帧图像进行融合处理,得到预测帧图像;或
若参考帧图像为多个,将各个参考帧图像对应的目标运动信息、各个参考帧图像的参考方向信息和各个参考帧图像的索引号发送至解码端,以使所述解码端根据各个参考帧图像及各自对应的目标运动信息在运动补偿阶段进行对齐、融合处理,确定预测帧图像。
实施例8:
图15为本发明实施例提供的编码过程示意图,编码过程包括以下步骤:
S151:获取当前帧图像。
S152:对所述当前帧图像进行编码,获得所述当前帧图像对应的编码图像;其中,在所述编码过程中利用上述任一项所述的帧间预测方法,对所述当前帧图像进行帧间预测。
本发明实施例提供的编码方法应用于编码器,图16为本发明实施例提供的编码器的结构示意图,编码器包括:
第二获取单元161,用于获取当前帧图像;
编码单元162,用于对所述当前帧图像进行编码,获得所述当前帧图像对应的编码图像。
实施例9:
图17为本发明实施例提供的解码过程示意图,解码过程包括以下步骤:
S171:接收编码器发送的目标运动信息、参考帧图像的参考方向信息和参考帧图像的索引号,其中,所述目标运动信息是编码器利用上述任一项所述的帧间预测方法得到的;
S172:根据所述目标运动信息、参考帧图像的参考方向信息和参考帧图像的索引号,确定预测帧图像。
本发明实施例提供的解码方法应用于解码器,图18为本发明实施例提供的解码器的结构示意图,解码器包括:
接收单元181,用于接收编码器发送的目标运动信息、参考帧图像的参考方向信息和参考帧图像的索引号;
解码单元182,用于根据所述目标运动信息、参考帧图像的参考方向信息和参考帧图像的索引号,确定预测帧图像。
实施例10:
在上述各实施例的基础上,本发明实施例中还提供了一种电子设备,如图19所示,包括:处理器301、通信接口302、存储器303和通信总线304,其中,处理器301,通信接口302,存储器303通过通信总线304完成相互间的通信;
所述存储器303中存储有计算机程序,当所述程序被所述处理器301执行时,使得所述处理器301执行如下步骤:
获取当前帧图像和对应的参考帧图像;
根据所述当前帧图像、所述参考帧图像和光流估计算法,确定第一运动信息;
分别对所述当前帧图像和所述参考帧图像进行特征提取,得到各自对应的当前帧特征图和参考帧特征图;将所述当前帧特征图和参考帧特征图输入已训练的运动信息检测模型,基于所述运动信息检测模型,确定第二运动信息;
对所述第一运动信息和第二运动信息进行融合处理,得到目标运动信息,基于所述目标运动信息进行运动补偿,得到补偿后的图像。
基于同一发明构思,本发明实施例中还提供了一种电子设备,由于上述电子设备解决问题的原理与帧间预测方法相似,因此上述电子设备的实施可以参见方法的实施,重复之处不再赘述。
本发明实施例提供的电子设备具体可以为桌面计算机、便携式计算机、智能手机、平板电脑、个人数字助理(Personal Digital Assistant,PDA)、网络侧设备等。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口302用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述处理器可以是通用处理器,包括中央处理器、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(Digital Signal Processing,DSP)、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
在本发明实施例中处理器执行存储器上所存放的程序时,实现获取当前帧图像和对应的参考帧图像;根据所述当前帧图像、所述参考帧图像和光流估计算法,确定第一运动信息;分别对所述当前帧图像和所述参考帧图像进行特征提取,得到各自对应的当前帧特征图和参考帧特征图;将所述当前帧特征图和参考帧特征图输入已训练的运动信息检测模型,基于所述运动信息检测模型,确定第二运动信息;对所述第一运动信息和第二运动信息进行融合处理,得到目标运动信息,基于所述目标运动信息进行运动补偿,得到补偿后的图像。
由于在本发明实施例中,获取当前帧图像和对应的参考帧图像之后,采用两种方式分别确定当前帧图像和对应的参考帧图像的运动信息。即第一种方式在像素域采用光流估计算法确定当前帧图像和对应的参考帧图像的第一运动信息;第二种方式在特征空间域,分别对当前帧图像和所述参考帧图像进行特征提取,得到各自对应的当前帧特征图和参考帧特征图;将当前帧特征图和参考帧特征图输入已训练的运动信息检测模型,基于运动信息检测模型,确定第二运动信息。然后对第一运动信息和第二运动信息进行融合处理,得到目标运动信息,最后根据目标运动信息进行帧间预测。本发明实施例从像素域和特征空间域两个维度出发,得到最终的目标运动信息,使得确定的目标运动信息更准确,进而基于目标运动信息进行运动补偿,使得补偿后的图像更准确。
实施例11:
在上述各实施例的基础上,本发明实施例还提供了一种计算机存储可读存储介质,所述计算机可读存储介质内存储有可由电子设备执行的计算机程序,当所述程序在所述电子设备上运行时,使得所述电子设备执行时实现如下步骤:
获取当前帧图像和对应的参考帧图像;
根据所述当前帧图像、所述参考帧图像和光流估计算法,确定第一运动信息;
分别对所述当前帧图像和所述参考帧图像进行特征提取,得到各自对应的当前帧特征图和参考帧特征图;将所述当前帧特征图和参考帧特征图输入已训练的运动信息检测模型,基于所述运动信息检测模型,确定第二运动信息;
对所述第一运动信息和第二运动信息进行融合处理,得到目标运动信息,基于所述目标运动信息进行运动补偿,得到补偿后的图像。
基于同一发明构思,本发明实施例中还提供了一种计算机可读存储介质,由于处理器在执行上述计算机可读存储介质上存储的计算机程序时解决问题的原理与帧间预测方法相似,因此处理器在执行上述计算机可读存储介质存储的计算机程序的实施可以参见方法的实施,重复之处不再赘述。
上述计算机可读存储介质可以是电子设备中的处理器能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器如软盘、硬盘、磁带、磁光盘(MO)等、光学存储器如CD、DVD、BD、HVD等、以及半导体存储器如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD)等。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (22)

1.一种帧间预测方法,其特征在于,所述方法包括:
获取当前帧图像和对应的参考帧图像;
根据所述当前帧图像、所述参考帧图像和光流估计算法,确定第一运动信息;
分别对所述当前帧图像和所述参考帧图像进行特征提取,得到各自对应的当前帧特征图和参考帧特征图;将所述当前帧特征图和参考帧特征图输入已训练的运动信息检测模型,基于所述运动信息检测模型,确定第二运动信息;
对所述第一运动信息和第二运动信息进行融合处理,得到目标运动信息,基于所述目标运动信息进行运动补偿,得到补偿后的图像。
2.如权利要求1所述的方法,其特征在于,获取对应的参考帧图像包括:
在所述当前帧图像的前向参考列表中,选取至少一帧参考帧图像;或在所述当前帧图像的后向参考列表中,选取至少一帧参考帧图像;或在所述当前帧图像的前、后向参考列表中,分别选取至少一帧参考帧图像。
3.如权利要求1所述的方法,其特征在于,所述分别对所述当前帧图像和所述参考帧图像进行特征提取,得到各自对应的当前帧特征图和参考帧特征图包括:
分别将所述当前帧图像和所述参考帧图像输入特征提取网络模型,基于所述特征提取网络模型分别对所述当前帧图像和所述参考帧图像进行特征提取,得到各自对应的当前帧特征图和参考帧特征图;其中,所述特征提取网络模型包括依次连接的第一卷积神经网络结构和至少一个第一残差块。
4.如权利要求3所述的方法,其特征在于,所述将所述当前帧特征图和参考帧特征图输入已训练的运动信息检测模型,基于所述运动信息检测模型,确定第二运动信息包括:
所述已训练的运动信息检测模型包括已训练的第一神经网络模型,所述第一神经网络模型包括第二卷积神经网络结构;
将所述当前帧特征图和参考帧特征图输入已训练的第一神经网络模型,基于所述第一神经网络模型,确定第二运动信息。
5.如权利要求1所述的方法,其特征在于,所述分别对所述当前帧图像和所述参考帧图像进行特征提取,得到各自对应的当前帧特征图和参考帧特征图包括:
分别将所述当前帧图像和所述参考帧图像输入金字塔网络模型,基于所述金字塔网络模型分别对所述当前帧图像和所述参考帧图像进行特征提取,得到每一层金字塔中的当前帧特征图和参考帧特征图;其中,所述金字塔网络模型包括依次连接的至少两个特征提取网络结构。
6.如权利要求5所述的方法,其特征在于,所述将所述当前帧特征图和参考帧特征图输入已训练的运动信息检测模型,基于所述运动信息检测模型,确定第二运动信息包括:
所述已训练的运动信息检测模型包括已训练的第二神经网络模型,所述第二神经网络模型包括依次连接的扭曲层、代价计算层、光流预测层和光流优化层;
基于所述金字塔网络模型中的扭曲层、代价计算层、光流预测层和光流优化层,分别确定金字塔中每一层的当前帧特征图对应的初始运动信息;
低分辨层的初始运动信息通过层层上采样得到第二运动信息;或将每一层的初始运动信息进行融合处理,得到第二运动信息。
7.如权利要求6所述的方法,其特征在于,所述光流预测层包括第二残差块,或深度可分离卷积结构,或空间可分离卷积结构;
所述光流优化层包括空洞卷积结构和滤波层。
8.如权利要求1所述的方法,其特征在于,所述基于所述目标运动信息进行运动补偿,得到补偿后的图像包括:
将所述目标运动信息和所述参考帧特征图输入运动信息补偿网络中的预测帧特征图模块,得到预测帧特征图;将所述预测帧特征图输入运动信息补偿网络中的重建图像模块,得到补偿后的图像。
9.如权利要求8所述的方法,其特征在于,所述预测帧特征图模块包括依次连接的可变形卷积层、串联层和卷积层;
所述将所述目标运动信息和所述参考帧特征图输入运动信息补偿网络中的预测帧特征图模块,得到预测帧特征图包括:
将所述目标运动信息和所述参考帧特征图输入所述可变形卷积层;
将所述可变形卷积层的输出结果和所述参考帧特征图输入所述串联层;
将所述串联层的输出结果输入所述卷积层;
将所述卷积层的输出结果和所述可变形卷积层的输出结果进行融合处理,得到预测帧特征图。
10.如权利要求8所述的方法,其特征在于,所述重建图像模块包括依次连接的第三残差块和反卷积层;
所述将所述预测帧特征图输入运动信息补偿网络中的重建图像模块,得到补偿后的图像包括:
将所述预测帧特征图输入所述第三残差块;
将所述第三残差块的输出结果输入所述反卷积层,得到补偿后的图像。
11.如权利要求9所述的方法,其特征在于,若参考帧特征图为至少两个,所述得到预测帧特征图包括:
将至少两个参考帧特征图进行分组,将每组的参考帧特征图和对应的目标运动信息输入各自对应的可变形卷积层;将各个可变形卷积层的输出结果输入时域注意力模块;
将每组时域注意力模块的输出结果输入所述串联层;
将所述串联层的输出结果输入空域注意力模块,基于所述空域注意力模块得到预测帧特征图。
12.如权利要求11所述的方法,其特征在于,所述时域注意力模块对所述各个可变形卷积层的输出结果的处理过程包括;
分别将所述各个可变形卷积层的输出结果输入时域注意力模块中各自对应的卷积层;
将每个卷积层的输出结果进行点乘和激活函数运算;将激活函数运算结果与任一可变形卷积层的输出结果进行相乘,得到所述时域注意力模块的输出结果。
13.如权利要求11所述的方法,其特征在于,所述空域注意力模块对所述串联层的输出结果的处理过程包括;
将所述串联层的输出结果输入空域注意力模块中的卷积层;
将所述卷积层的输出结果输入多尺度网络结构;所述多尺度网络结构包括不同尺度的第四残差块;
对所述多尺度网络结构的输出结果进行激活函数运算;将所述激活函数运算的结果与所述卷积层的输出结果进行相乘,得到所述预测帧特征图。
14.如权利要求1至13任一项所述的方法,其特征在于,所述方法还包括:
将所述目标运动信息、参考帧图像的参考方向信息和参考帧图像的索引号发送至解码端,以使所述解码端根据所述目标运动信息、参考帧图像的参考方向信息和参考帧图像的索引号,确定预测帧图像;所述参考帧图像的参考方向信息包括前向参考信息和/或后向参考信息。
15.如权利要求14所述的方法,其特征在于,所述将所述目标运动信息、参考帧图像的参考方向信息和参考帧图像的索引号发送至解码端包括:
若参考帧图像为多个,对各个参考帧图像各自对应的目标运动信息进行融合或预选处理,得到一个或两个融合或预选处理后的目标运动信息;将所述融合或预选处理后的目标运动信息、所述各个参考帧图像的参考方向信息和所述各个参考帧图像的索引号发送至解码端,以使所述解码端根据所述融合或预选处理后的目标运动信息、所述各个参考帧图像的参考方向信息和所述各个参考帧图像的索引号,确定预测帧图像;或
若参考帧图像为多个,将各个参考帧图像对应的目标运动信息、各个参考帧图像的参考方向信息和各个参考帧图像的索引号发送至解码端,以使所述解码端根据各个参考帧图像对应的目标运动信息、各个参考帧图像的参考方向信息和各个参考帧图像的索引号,分别确定候选预测帧图像,将各个候选预测帧图像进行融合处理,得到预测帧图像;或
若参考帧图像为多个,将各个参考帧图像对应的目标运动信息、各个参考帧图像的参考方向信息和各个参考帧图像的索引号发送至解码端,以使所述解码端根据各个参考帧图像及各自对应的目标运动信息在运动补偿阶段进行对齐、融合处理,确定预测帧图像。
16.一种帧间预测装置,其特征在于,所述装置包括:
第一获取单元,用于获取当前帧图像和对应的参考帧图像;
第一确定单元,用于根据所述当前帧图像、所述参考帧图像和光流估计算法,确定第一运动信息;
第二确定单元,用于分别对所述当前帧图像和所述参考帧图像进行特征提取,得到各自对应的当前帧特征图和参考帧特征图;将所述当前帧特征图和参考帧特征图输入已训练的运动信息检测模型,基于所述运动信息检测模型,确定第二运动信息;
预测单元,用于对所述第一运动信息和第二运动信息进行融合处理,得到目标运动信息,基于所述目标运动信息进行运动补偿,得到补偿后的图像。
17.一种编码方法,其特征在于,所述方法包括:
获取当前帧图像;
对所述当前帧图像进行编码,获得所述当前帧图像对应的编码图像;其中,在所述编码过程中利用权利要求1-13中任一项所述的帧间预测方法,对所述当前帧图像进行帧间预测。
18.一种编码器,其特征在于,所述编码器包括:
第二获取单元,用于获取当前帧图像;
编码单元,用于对所述当前帧图像进行编码,获得所述当前帧图像对应的编码图像。
19.一种解码方法,其特征在于,所述方法包括:
接收编码器发送的目标运动信息、参考帧图像的参考方向信息和参考帧图像的索引号,其中,所述目标运动信息是编码器利用权利要求1-13中任一项所述的帧间预测方法得到的;
根据所述目标运动信息、参考帧图像的参考方向信息和参考帧图像的索引号,确定预测帧图像。
20.一种解码器,其特征在于,所述解码器包括:
接收单元,用于接收编码器发送的目标运动信息、参考帧图像的参考方向信息和参考帧图像的索引号;
解码单元,用于根据所述目标运动信息、参考帧图像的参考方向信息和参考帧图像的索引号,确定预测帧图像。
21.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-15任一项所述的方法步骤。
22.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-15任一项所述的方法步骤。
CN202111666914.8A 2021-12-31 2021-12-31 帧间预测方法、装置、编解码方法、编解码器及电子设备 Pending CN114339219A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111666914.8A CN114339219A (zh) 2021-12-31 2021-12-31 帧间预测方法、装置、编解码方法、编解码器及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111666914.8A CN114339219A (zh) 2021-12-31 2021-12-31 帧间预测方法、装置、编解码方法、编解码器及电子设备

Publications (1)

Publication Number Publication Date
CN114339219A true CN114339219A (zh) 2022-04-12

Family

ID=81021528

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111666914.8A Pending CN114339219A (zh) 2021-12-31 2021-12-31 帧间预测方法、装置、编解码方法、编解码器及电子设备

Country Status (1)

Country Link
CN (1) CN114339219A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114898175A (zh) * 2022-04-29 2022-08-12 北京九章云极科技有限公司 目标检测方法、装置及相关设备
CN115633216A (zh) * 2022-09-05 2023-01-20 北京智源人工智能研究院 时域运动一致性视频生成模型的训练方法和视频生成方法
WO2023197717A1 (zh) * 2022-04-15 2023-10-19 华为技术有限公司 一种图像解码方法、编码方法及装置
CN117061824A (zh) * 2023-10-12 2023-11-14 深圳云天畅想信息科技有限公司 流媒体视频补帧方法、装置及计算机设备

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023197717A1 (zh) * 2022-04-15 2023-10-19 华为技术有限公司 一种图像解码方法、编码方法及装置
CN114898175A (zh) * 2022-04-29 2022-08-12 北京九章云极科技有限公司 目标检测方法、装置及相关设备
CN115633216A (zh) * 2022-09-05 2023-01-20 北京智源人工智能研究院 时域运动一致性视频生成模型的训练方法和视频生成方法
CN115633216B (zh) * 2022-09-05 2024-05-28 北京智源人工智能研究院 时域运动一致性视频生成模型的训练方法和视频生成方法
CN117061824A (zh) * 2023-10-12 2023-11-14 深圳云天畅想信息科技有限公司 流媒体视频补帧方法、装置及计算机设备
CN117061824B (zh) * 2023-10-12 2024-01-26 深圳云天畅想信息科技有限公司 流媒体视频补帧方法、装置及计算机设备

Similar Documents

Publication Publication Date Title
CN114339219A (zh) 帧间预测方法、装置、编解码方法、编解码器及电子设备
US10390040B2 (en) Method, apparatus, and system for deep feature coding and decoding
CN110443266B (zh) 对象预测方法及装置、电子设备和存储介质
CN111861880B (zh) 基于区域信息增强与块自注意力的图像超分与融合方法
KR20220070326A (ko) 비디오 코딩을 위한 변형 가능한 콘볼루션에 의한 예측 프레임 생성
CN109903315B (zh) 用于光流预测的方法、装置、设备以及可读存储介质
KR20210092286A (ko) 이미지 복원 방법 및 장치, 전자 기기, 저장 매체
CN110830808A (zh) 一种视频帧重构方法、装置及终端设备
CN116681584A (zh) 一种多级扩散图像超分辨算法
CN116469100A (zh) 一种基于Transformer的双波段图像语义分割方法
CN116205962A (zh) 基于完整上下文信息的单目深度估计方法及系统
JP6781823B2 (ja) インターフレーム予測符号化方法および装置
CN110084742B (zh) 一种视差图预测方法、装置及电子设备
CN110717864B (zh) 一种图像增强方法、装置、终端设备及计算机可读介质
CN111242068A (zh) 基于视频的行为识别方法、装置、电子设备和存储介质
CN111127632B (zh) 人体建模模型获取方法、装置、电子设备及存储介质
CN116508320A (zh) 基于机器学习的图像译码中的色度子采样格式处理方法
CN116993987A (zh) 一种基于轻量级神经网络模型的图像语义分割方法及系统
CN111861940A (zh) 一种基于条件连续调节的图像调色增强方法
CN117036436A (zh) 一种基于双编码器-解码器的单目深度估计方法及系统
CN116758449A (zh) 一种基于深度学习的视频显著目标检测方法及系统
CN114071167B (zh) 视频增强方法、装置、解码方法、解码器及电子设备
WO2022194137A1 (zh) 视频图像的编解码方法及相关设备
CN115375909A (zh) 一种图像处理方法及装置
CN114501031B (zh) 一种压缩编码、解压缩方法以及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination